„Deepseek“ ekspertų mišinys (MOE) Sistema: efektyvumo ir našumo padidinimas

Kaip „Deepseek“ ekspertų mišinys pagerina jos efektyvumą

„Deepseek“ ekspertų mišinys (MOE) padidina efektyvumą per novatoriškas architektūros strategijas, optimizuojančias parametrų naudojimą ir skaičiavimo išlaidas, išlaikant aukštą našumą.

Pagrindinės pagerėjusio efektyvumo strategijos

1. Smulkiagrūdis ekspertų segmentacija:
„Deepseekmoe“ supažindina su ekspertų segmentavimo metodu į mažesnius, labiau specializuotus vienetus. Padalijusi tarpinius paslėptus matmenis neuroninio tinklo (FFN) (FFN), sistema gali suaktyvinti didesnį skaičių smulkių ekspertų, nedidindama bendro parametrų skaičiaus. Šis smulkus segmentavimas leidžia tiksliau paskirstyti žinias ekspertams, užtikrinant, kad kiekvienas ekspertas sutelktų dėmesį į skirtingus duomenų aspektus, taip sustiprindamas specializaciją ir sumažindamas aktyvuotų parametrų atleidimą [1] [2].

2. Bendras ekspertų izoliacija:
Architektūra išskiria tam tikrus ekspertus, kad veiktų kaip bendri subjektai, kurie visada yra suaktyvinti. Ši strategija užfiksuoja ir konsoliduoja bendrąsias žinias įvairiuose kontekstuose, o tai mažina atleidimą tarp kitų nukreiptų ekspertų. Suspaudęs bendras žinias apie šiuos bendrus ekspertus, „Deepseekmoe“ užtikrina, kad kiekvienas nukreiptas ekspertas galėtų sutelkti dėmesį į unikalią informaciją ir taip pagerinti parametrų efektyvumą ir specializaciją [2] [4].

Veiklos rezultatai

„Deepseekmoe“ demonstruoja reikšmingą našumo padidėjimą su mažiau skaičiavimų. Pavyzdžiui, modelis su 2 milijardais parametrų pasiekia palyginamus rezultatus su didesniais modeliais (pvz., GSHARD su 2,9 milijardo parametrų), naudojant tik apie 40% skaičiavimo išteklių [1]. Be to, padidindamas 16 milijardų parametrų, jis palaiko konkurencinius rezultatus prieš kitus modelius, tokius kaip „Llama2“, tuo pačiu žymiai sumažindamas skaičiavimo poreikius [1] [2].

Apibendrinant galima pasakyti, kad „Deepseek“ MOE sistema padidina efektyvumą, leisdama tikslingai suaktyvinti specializuotus ekspertus ir sumažinti atleidimą per bendrąsias žinių struktūras. Tai lemia galingą, tačiau efektyvų išteklių turinį modelį, galintį efektyviai atlikti sudėtingas užduotis.

Citatos:
[1] https://aclanthology.org/2024.acl-long.70/
[2] https://arxiv.org/html/2401.06066v1
[3] https://www.reddit.com/r/localllama/comments/1clkld3/deepseekv2_a_strong_economical_and_effication/
[4] https://aclanthology.org/2024.acl-long.70.pdf
[5] https://arxiv.org/abs/2405.04434
[6] https://adaci.org/deepseek-v3-oxplied-optimizing-fefictity-and-cale/
[7] https://openreview.net/forum?id=mwhan6r7os
[8] https://seo.ai/blog/deepseek-ai-statistics-and-facts
[9] https://arxiv.org/html/2405.04434v3
[10] https://daily.dev/blog/deepseek-everything-you-reed-to-know-out-this-new-llm-in-on-oon-place