„Deepseek-V3“ naudoja novatorišką požiūrį į apkrovos balansavimą dėl didelio masto prieigos raktų užklausų, visų pirma dėl jos pagalbinių nuostolių be nuostolių strategijos. Šis metodas sumažina veiklos skilimą, kuris gali atsirasti bandant subalansuoti apkrovą per savo ekspertų mišinio (MOE) architektūrą. Čia yra pagrindiniai komponentai, kaip „DeepSeek-V3“ valdo apkrovos balansavimą:
1. Dinaminis apkrovos stebėjimas: Mokymo metu „Deepseek-V3“ nuolat stebi kiekvieno eksperto apkrovą visoje partijoje. Kiekvieno mokymo etapo pabaigoje jis dinamiškai koreguoja šališkumo terminą, susietą su kiekvienu ekspertu, atsižvelgiant į tai, ar jie yra perkrauti, ar perkrauti. Šis koregavimas padeda išlaikyti subalansuotą apkrovą tarp ekspertų, sustiprinant bendrą modelio našumą, nesikliuodamas vien pagalbinių nuostolių funkcijomis [1] [2].
2. Daugialypė prognozė (MTP): Modelis apima daugialypės prognozavimo mokymo tikslą, kuris ne tik pagerina našumą, bet ir palengvina spekuliacinį dekodavimą, kuris pagreitina išvadą. Tai leidžia efektyviau apdoroti žetonų užklausas, optimizuojant, kaip žetonai tvarkomi atliekant išvadą [1] [3].
3. Mazgų ribotas maršrutas: Norėdami sumažinti komunikacijos išlaidas mokymo metu, „Deepseeek-V3“ naudoja ribotą maršruto parinkimo mechanizmą, kuris riboja mazgų, susijusių su kiekvieno ženklo apdorojimu, skaičių. Kiekvienas žetonas nukreipiamas į maksimalų mazgų skaičių, remiantis aukščiausiu afiniteto balais, užtikrinant efektyvų ryšio ir skaičiavimo sutapimą [1] [2].
4. Nėra žetono kritimo: dėl savo veiksmingos apkrovos balansavimo strategijos dėka „Deepseeek-V3“ palaiko gerą pusiausvyrą per visą treniruotę ir išvadą, tai reiškia, kad bet kuriame fazėje jis nenuleidžia jokių žetonų. Ši galimybė užtikrina, kad visi įvesties žetonai būtų apdorojami neprarandant, dar labiau padidina modelio efektyvumą ir patikimumą [1] [4].
5. Mastelio keitimas ir efektyvumas: Turėdami 671 milijardą parametrų ir tik 37 milijardų aktyvuotų kiekvieno prieigos rakto metu, „DeepSeeek-V3“ yra skirtas mastelio masteliui, išlaikant skaičiavimo poreikius. Šis selektyvus aktyvavimas prisideda prie jos sugebėjimo efektyviai tvarkyti didelio masto užklausas [4] [5].
Apskritai, „Deepseeek-V3“ modernūs apkrovos balansavimo mechanizmai leidžia efektyviai valdyti didelio masto žetonų užklausas, išlaikant aukštą našumą ir sumažinant išteklių naudojimą.
Citatos:
[1] https://arxiv.org/html/2412.19437v1
[2] https://huggingface.co/deepseek-ai/deepseek-v3/blob/main/readme.md
[3] https://docsbot.ai/models/deepseek-v3
[4] https://encord.com/blog/deepseek-ai/
[5] https://requesty.ai/blog/deepseek-v3-cline
[6] https://arxiv.org/pdf/2412.19437.pdf
[7] https://github.com/deepseek-ai/deepseek-v3/labels
[8] https://www.linkedin.com/pulse/why-deepseek-r1-inging-viral-new-era-ser-cost-effective-llms-horneman-i8lje