„Deepseek-V3“ ekspertų atrankos procesas ir MOE architektūra

Kaip ekspertų atrankos procesas „Deepseeek-V3“ užtikrina puikų įgūdžių derinį

„Deepseek-V3“ ekspertų atrankos procesas yra skirtas užtikrinti subalansuotą ir efektyvų užduočių paskirstymą savo ekspertams, pasinaudojant ekspertų (MOE) architektūros mišiniu. Šis procesas yra labai svarbus norint pasiekti tobulą įgūdžių derinį, dinamiškai suaktyvinant tik pačius aktualiausius kiekvieno įvesties žetono ekspertus.

Ekspertų (MOE) architektūros mišinys

„Deepseek-V3“ naudojama MOE architektūra, apimanti modelio padalijimą į kelis „ekspertus“, kiekvienas specializuojasi skirtingose užduotyse ar žinių srityse. Modelis turi 1 bendrą ekspertą ir 256 nukreiptus ekspertus, o 8 nukreipti ekspertai buvo parinkti kaip aktyvūs kiekvienam įvesties prieigos raktui, atsižvelgiant į jų aktualumą [1]. Šis metodas leidžia modeliui efektyviau apdoroti įvestis, suaktyvinant tik dalį visų jo parametrų 37 milijardų iš 671 milijardo kiekvienai užduočiai [6] [7].

Ekspertų atrankos procesas

„Deepseek-V3“ ekspertų pasirinkimas yra pagrįstas afiniteto balu, kuris apskaičiuojamas kaip įvesties žetono įterpimo taško produktas ir konkretaus eksperto centroidas. Šis balas lemia, kaip gerai ekspertas atitinka įvesties žetono poreikius [1]. Modelyje naudojama „Top-K“ atrankos strategija, kai apdorojimui pasirinktos geriausio balo ekspertai. Siekiant išvengti maršruto žlugimo, kai per daug žetonų siunčiama keliems ekspertams, „Deepseek-V3“ naudoja pagalbinių apkrovos balansavimo strategiją be nuostolių.

Pagalbinis apkrovos balansavimas be nuostolių

Ši strategija apima šališkumo pridėjimą prie giminingumo balo maršruto parinkimo metu. Šališkumas dinamiškai koreguojamas atsižvelgiant į kiekvieno eksperto naudojimą partijoje. Jei ekspertas yra perkrautas, jo šališkumas sumažėja, kad atgrasytų nuo tolesnių užduočių, o nepakankamai panaudoti ekspertai padidina jų šališkumą, kad paskatintų daugiau naudoti [1] [3]. Šis požiūris užtikrina, kad darbo krūvis tolygiai pasiskirsto ekspertams, nereikalaujant papildomų nuostolių funkcijų, o tai kartais gali pakenkti modelio našumui [4].

Ekspertų atrankos proceso pranašumai

Ekspertų atrankos procesas „Deepseek-V3“ siūlo keletą privalumų:
-Efektyvumas: suaktyvinant tik atitinkamus ekspertus, modelis sumažina skaičiavimo pridėtines išlaidas, todėl jis tampa ekonomiškesnis ir energijos taupantis [6] [9].
- Specializacija: Kiekvienas ekspertas gali specializuotis konkrečiose užduotyse ar žinių srityse, todėl gali būti niuansuotas ir tiksliau apdoroti įvairius įvestis [1] [9].
- Mastelio keitimas: MOE architektūra leidžia sukurti didesnius modelius be per didelių skaičiavimo išlaidų, leidžiančių sukurti sudėtingesnes ir pajėgias AI sistemas [4] [6].

Apskritai, „Deepseeek-V3“ ekspertų atrankos procesas užtikrina puikų įgūdžių derinį dinamiškai paskirstant užduotis specializuotiems ekspertams, optimizuoti efektyvumą ir stiprinti modelio našumą.

Citatos:
[1] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[2] https://www.herohunt.ai/blog/deepseeks-ai-model-revoliucizing-global-recruitment
[3] https://www.youtube.com/watch?v=BV7CT-_SPQY
[4] https://www.linkedin.com/pulse/why-main-benefit-mixture-experts-moe-models-qi-he-nkgbe
[5] https://www.reddit.com/r/localllama/comments/1hr56e3/notes_on_deepseek_v3_is_it_try_better_than/
[6] https://alliedinsight.com/blog/deepseeks-technological-inovations-a--se-dve-into-the-v3-model/
[7] https://huggingface.co/deepseek-ai/deepseek-v3
[8] https://mindflow.io/blog/deepseek-vs-openai- what-is-se-deepseek- what-does-deepseek-do
[9] https://tldv.io/blog/what-is-deepseek/
[10] https://www.bentoml.com/blog/the-complete-guide-to-deepseek-models-from-v3-to-r1-and----neond