Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Kokių priemonių imas


Kokių priemonių imas


„Deepseek“ naudoja keletą strategijų, kaip užkirsti kelią žetonų kritimui treniruotės metu, ypač jo ekspertų mišinyje (MOE) architektūroje. Čia yra pagrindinės priemonės:

1. Ženklų mažinimo strategija: „Deepseek“ naudoja žetonų išmetamo metodo metodą, pagrįstą maršruto nustatymo tikimybėmis, panašiai kaip įprasti MOE modeliai. Tai reiškia, kad žetonai numetami pagal jų balus, užtikrinant, kad tik mažiausiai svarbūs žetonai būtų išmesti, kai žetonų skaičius viršija tam tikrą pajėgumą. Talpa apskaičiuojama skirtingai, atsižvelgiant į tai, ar dėmesys sutelkiamas į ekspertą ar prietaiso matmenis, o tai padeda valdyti, kaip veiksmingai apdoroja žetonus, kaip žetonai apdoroja skirtingus ekspertus ar įrenginius [1].

2. Įrenginio lygio žetonų kritimas: strategija pirmiausia veikia įrenginio lygyje, kur yra rūšiuojami visi ekspertų balai, o žetonai su mažiausia tikimybe. Tai užtikrina, kad kiekvienas įrenginys galėtų valdyti savo apkrovą, neuždengdamas nė vieno eksperto, kartu išlaikydamas bendrą efektyvumo efektyvumą [1].

3. Garantuotas žetonų išlaikymas: „Deepseek“ įgyvendino konkrečią strategiją, užtikrinančią, kad maždaug 10% mokymo sekų žetonų niekada nebus numesta. Tai labai svarbu išlaikyti mokymo duomenų vientisumą ir užtikrinti, kad būtų išsaugota svarbi informacija per visą mokymo procesą [2] [6].

4. Apkrovos balansavimas: naujausioje versijoje „Deepseek-V3“ naudojama veiksminga apkrovos balansavimo strategija, kuri pašalina poreikį, kad treniruotės metu būtų galima numesti žetoną. Dinamiškai koreguodamas ekspertų apkrovas ir panaudodamas daugialypės prognozavimo tikslą, „Deepseeek-V3“ palaiko subalansuotą žetonų pasiskirstymą tarp ekspertų ir taip užkirstų kelią duomenų praradimui treniruočių metu [2].

Šios priemonės atspindi „Deepseek“ įsipareigojimą optimizuoti jo mokymo procesus, tuo pačiu sumažinant duomenų praradimą ir maksimaliai padidinant skaičiavimo efektyvumą.

Citatos:
[1] https://github.com/deepseek-ai/deepseek-v2/issues/5
[2] https://arxiv.org/html/2412.19437v1
[3] https://www.tradingview.com/news/financemagnates:c7148cfCe094b:0-why-s-crypto-tingewing-deepseek-tokens-Affect tūkstančiai tūkstančių prekybininkų/
[4] https://planetbanatt.net/articles/deepseek.html
[5] https://www.financemagnates.com/cryptocurrency/why-is-crypto-ingewing-deepseeek-tyokens-affect theusing-fraders/
[6] https://arxiv.org/html/2405.04434v5
[7] https://www.binance.com/square/post/19557042115937
[8] https://community.openai.com/t/will-deepseek-r1-force-openai-to-reduce-token-prices/1097716