Milyen intézkedéseket tesz a DeepSeek, hogy megakadályozzák a token leeresztését az edzés során

A DeepSeek számos stratégiát alkalmaz, hogy megakadályozzák a token leeresztését az edzés során, különösen a szakemberek keverékében (MOE). Itt vannak a legfontosabb intézkedések:

1. token-csepp stratégia: A DeepSeek az útválasztási valószínűségeken alapuló token-bölcs megközelítést alkalmaz, hasonlóan a hagyományos MOE modellekhez. Ez azt jelenti, hogy a tokeneket a pontszámuk szerint hagyják el, biztosítva, hogy csak a legkevésbé fontos tokeneket dobják el, ha a tokenszám meghaladja egy bizonyos kapacitást. A kapacitást másképp számolják, attól függően, hogy a fókusz a szakértő vagy az eszköz dimenziójára összpontosít -e, amely segít kezelni a tokeneket a különböző szakértők vagy eszközök hatékonyan feldolgozása [1].

2. Eszközszintű tokencsepp: A stratégia elsősorban az eszköz szintjén működik, ahol az összes szakértői pontszámot rendezik, és a legalacsonyabb valószínűséggel rendelkező tokenek le vannak dobva. Ez biztosítja, hogy minden eszköz képes kezelni a terhelést anélkül, hogy egyetlen szakértőt elárasztaná, miközben megőrzi a teljes teljesítmény hatékonyságát [1].

3. garantált token megtartás: A DeepSeek egy speciális stratégiát hajtott végre annak biztosítása érdekében, hogy a tokenek kb. 10% -át edzési szekvenciákból soha nem hagyják el. Ez elengedhetetlen a képzési adatok integritásának fenntartása és annak biztosítása érdekében, hogy a fontos információk megőrizzék a képzési folyamat során [2] [6].

4. Terhelés-kiegyensúlyozás: A legújabb verziójában, a DeepSeek-V3-ban hatékony terheléselosztási stratégiát alkalmaznak, amely kiküszöböli a token szükségességét az edzés során. A szakértői terhelések dinamikus kiigazításával és a multi-token predikciós célkitűzés felhasználásával a DeepSeek-V3 fenntartja a tokenek kiegyensúlyozott eloszlását a szakértők között, ezáltal megakadályozva az adatok elvesztését az edzés során [2].

Ezek az intézkedések tükrözik a DeepSeek elkötelezettségét a képzési folyamatok optimalizálása iránt, miközben minimalizálják az adatvesztést és maximalizálják a számítási hatékonyságot.

Idézetek:
[1] https://github.com/deepseek-ai/deepseek-v2/issues/5
[2] https://arxiv.org/html/2412.19437v1
[3] https://www.tradingview.com/news/financemagnates:c7148cfce094b:0-hy-crypto-crypto-crypto-wow-way-deepseek-tokens-affect-things-thraders/
[4] https://planetbanatt.net/articles/deepseek.html
[5] https://www.financemagnates.com/cryptocurrency/why-is-crypto-crypto-down-fake-deepseek-tokens-affect-thangs-t-traders/
[6] https://arxiv.org/html/2405.04434v5
[7] https://www.binance.com/square/post/19557042115937
[8] https://community.openai.com/t/will-deepseek-r1-price-toke-prices/1097716