„Deepseekmoe“: Ekspertų mišinio architektūros per GSHARD tobulinimas

Kaip „Deepseekmoe“ palyginamas su kitomis MOE architektūromis, tokiomis kaip „Gshard“

„Deepseekmoe“ yra reikšmingas tobulėjimas ekspertų (MOE) architektūrų mišinio srityje, ypač palyginti su GSHARD. Žemiau yra apžvalga, kaip „Deepseekmoe“ išsiskiria ir pralenkia GSHARD įvairiais aspektais.

Architektūrinės naujovės

** 1. Ekspertų specializacija ir segmentas
„Deepseekmoe“ pristato smulkiagrūdį ekspertų segmentavimo metodą, leidžiantį lankstesnius aktyvuotų ekspertų derinius kiekvienam įvesties žetonui. Tai prieštarauja GSHARD, kai ekspertai veikia savarankiškiau. Segmentacija leidžia sustiprinti įvairovę ir specializaciją, kuri yra labai svarbi norint optimizuoti įvairių užduočių našumą [1] [5].

** 2. Apkrovos balansavimas be pagalbinių nuostolių
Skirtingai nuo GSHARD, kuris priklauso nuo pagalbinių nuostolių dėl ekspertų apkrovos balansavimo, „Deepseekmoe“ naudoja dinaminį kiekvieno eksperto šališkumo terminų koregavimą mokymo metu. Šis metodas užtikrina subalansuotą panaudojimą be veiklos skilimo rizikos, susijusios su pagalbiniais nuostoliais. Ši naujovė supaprastina mokymo procesą ir padidina bendrą modelio efektyvumą [5] [6].

našumo palyginimai

** 1. Parametrų efektyvumas
Empiriniai rezultatai rodo, kad „Deepseekmoe“ pasiekia pranašesnį našumą net esant mažesniam parametrų skaičiui. Pavyzdžiui, 2 milijardų parametrų „Deepseekmoe“ modelis žymiai pralenkia GSHARD 2 milijardų modelį ir atitinka GSHARD 2,9 milijardo modelio, kuris turi 1,5 karto didesnį nei ekspertų parametrai ir skaičiavimas [1] [3]. Tai rodo „Deepseekmoe“ sugebėjimą maksimaliai padidinti našumą ir sumažinti išteklių naudojimą.

** 2. Skaičiavimo kaina
„Deepseekmoe“ yra sukurtas taip, kad būtų efektyvus skaičiavimams. Padidėjęs iki 16 milijardų parametrų, jis palaiko konkurencinius efektyvumą su tokiais modeliais kaip „Llama2“, tuo pačiu naudojantis tik apie 40% skaičiavimų, kurių reikalauja tankesni modeliai [2] [3]. Be to, preliminarūs bandymai padidina „Deepseekmoe“ iki 145 milijardų parametrų, rodo, kad jis gali palyginti su didesniais modeliais, tuo pačiu naudojant tik dalį (net 18,2%) skaičiavimų, reikalingų GSHARD [4].

jautrumas ir patikimumas

Deepseekmoe, palyginti su GSHARD, turi didesnį jautrumą išjungti viršutinius maršrutinius ekspertus, tai rodo mažesnį parametrų perteklių. Kiekvienas nukreiptas „Deepseekmoe“ ekspertas yra labiau nepakeičiamas, padidindamas modelio tvirtumą ir specializacijos galimybes [1]. Ši savybė leidžia „Deepseekmoe“ išlaikyti aukštą našumą net tada, kai suaktyvėja mažiau ekspertų.

Išvada

Apibendrinant galima pasakyti, kad „Deepseekmoe“ lenkia GSHARD per savo novatoriškas architektūros strategijas, kurios pagerina ekspertų specializaciją, supaprastina apkrovos balansavimą ir pagerina skaičiavimo efektyvumą. Šie pasiekimai suteikia galimybę „Deepseekmoe“ pasiekti moderniausius rezultatus, turinčius mažiau išteklių, todėl tai yra įtikinamas pasirinkimas būsimiems MOE įgyvendinimams atliekant natūralių kalbų apdorojimo užduotis.

Citatos:
[1] https://aclanthology.org/2024.acl-long.70.pdf
[2] https://aclanthology.org/2024.acl-long.70/
[3] https://arxiv.org/html/2401.06066v1
[4] https://www.semanticscholar.org/paper/deepseekmoe:-towards-oLtimate-Expert-Specialization-dai-deng/16d6e1ed1cf72212f6154444f3aaa59d18bc95fda
[5] https://www.marktechpost.com/2024/01/18/deepseek-ai-proposes-deepseekmoe-aninovative-Mixture-of-Experts-Moe-Language-Model-architektūra-specialiai sukurtos-duonos -gulmate-expert-specializacija/
[6] https://arxiv.org/html/2405.04434v3
[7] http://arxiv.org/abs/2401.06066v1
[8] https://www.researchgate.net/publication/384221574_deepseekmoe_towards_ultimate_expert_specialation_in_mixture-fexperts_language_models
[9] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-akeaways-from-deepseek-v3?lang=en