Pagalbinė apkrovos balansavimo strategija be nuostolių, skirtų „Deepseeek-V3“, skirtas modeliams mišiniams

Ar galite paaiškinti papildomą apkrovos balansavimo strategiją, naudojamą „Deepseeek-V3“

Pagalbinė apkrovos balansavimo strategija „Deepseeek-V3“ yra naujas požiūris, skirtas efektyviai paskirstyti skaičiavimo apkrovas tarp ekspertų mišinio (MOE) modelio, nepakenkiant našumui. Ši strategija yra labai svarbi, nes tradiciniai apkrovos balansavimo metodai dažnai remiasi pagalbinėmis nuostolių funkcijomis, kurios gali įvesti gradiento trukdžius ir neigiamai paveikti modelio našumą, jei nebus tinkamai suderinti.

fonas: ekspertų mišinys (MOE) ir apkrovos balansavimas

MOE modeliuose kiekvienas įvestis nukreipiama į ekspertų pogrupį, pagrįstą vartų mechanizmu. Apkrovos balansavimo tikslas yra užtikrinti, kad šių ekspertų darbo krūvis būtų tolygiai paskirstytas. Tradiciniai metodai naudoja pagalbines nuostolių funkcijas, kad pakoreguotų vartų balus, o tai gali sukelti tokias problemas kaip gradiento trukdžiai ir našumo blogėjimas.

„Deepseek-V3“ pagalbinių krovinių balansavimas be nuostolių

„Deepseek-V3“ sprendžia šiuos iššūkius, įvesdama apkrovos balansavimo strategiją be nuostolių. Užuot naudojęs pagalbines nuostolių funkcijas, jis tiesiogiai koreguoja vartų balus pridedant ekspertų šališkumo terminą. Šis šališkumas nenaudojamas galutiniuose vartų baluose, tačiau yra labai svarbus renkantis „Topk“ proceso ekspertus.

Štai kaip tai veikia:

1. Apskaičiavimas šališkumo: kiekvieno eksperto šališkumas apskaičiuojamas atsižvelgiant į skirtumą tarp vidutinio kiekvieno eksperto priskirtų žetonų skaičiaus ir faktinio priskirto skaičiaus. Šis skirtumas padauginamas iš fiksuoto atnaujinimo greičio, kuris yra suderinamas hiperparametras.

2. Koreguojant vartų balus: šališkumas naudojamas koreguoti vartų balus $$ s_ {i, t} $$, kurie parodo $ $ t $$-th rakto, pasirinkus $$ i $$-Thop Ekspertą, tikimybę. Modifikuodamas šiuos balus, modelis gali dinamiškai subalansuoti apkrovą, neįvedant papildomų nuostolių funkcijų.

3. Ne diferencijuojamas šališkumas: šališkumo terminas nėra diferencijuojamas, tai reiškia, kad jis neturi įtakos gradientams atgal. Tai išvengia nuolydžio trukdžių, išsaugo priežastinį ryšį ir užtikrina, kad modelio našumas nepakenktų apkrovos balansavimo procesui.

Privalumai ir našumas

Pagalbinė apkrovos balansavimo strategija „Deepseeek-V3“ suteikia keletą pranašumų:

- Efektyvus mokymas: Tai užtikrina subalansuotą darbo krūvį neprarandant modelio atlikimo, todėl mokymo procesas tampa efektyvesnis.
- Stabilumas: vengdamas pagalbinių nuostolių funkcijų, jis sumažina potencialų našumo pablogėjimą ir palaiko stabilumą treniruotės metu.
- mastelio keitimas: Šis metodas leidžia „Deepseeek-V3“ efektyviai mastelio mastelį, leidžiantį jam tvarkyti didelius duomenų rinkinius ir sudėtingas užduotis be reikšmingų pridėtinių išlaidų.

Apskritai, „Deepseeek-V3“ novatoriška apkrovos balansavimo strategija yra pagrindinis veiksnys, leidžiantis pasiekti aukštą našumą išlaikant efektyvumą ir mastelį, todėl jis yra konkurencingas su pirmaujančiais uždaro kodo modeliais [1] [2] [4].

Citatos:
[1] https://ai.gopubby.com/deepseek-v3-sexplied-3-auxiliary-loss-free-load-balansing-4beeb734ab1f
[2] https://byteseddesign.substack.com/p/how-deepseek-v3-brings-open-Source
[3] https://towardsdataScence.com/deepseek-v3-xplied-1-multi-head-latent-atention-ed6bee2a67c4/
[4] https://huggingface.co/deepseek-ai/deepseek-v3
[5] https://www.youtube.com/watch?v=2PRKHKBDDYU
[6] https://www.inferless.com/learn/the-ultimate-guide-to-deepseek-models
[7] https://deepseekv3.org/blog/deepseek-v3-architcture
[8] https://www.datacamp.com/tutorial/deepseek-v3