Prevence tokenu v tréninku Deepseek: MOE architektura a strategie

Jaká opatření bere Deepseek, aby se zabránilo poklesu tokenu během tréninku

DeepSeek využívá několik strategií, aby zabránil poklesu tokenu během tréninku, zejména ve své architektuře směsi expertů (MOE). Zde jsou klíčová opatření:

1. Strategie tokenu: Deepseek využívá přístup k pádu s tokenem na základě pravděpodobnosti směrování, podobně jako u konvenčních modelů MOE. To znamená, že tokeny jsou upuštěny podle jejich skóre, což zajišťuje, že pouze nejméně důležité žetony jsou vyřazeny, když počet tokenů překročí určitou kapacitu. Kapacita se počítá odlišně v závislosti na tom, zda se zaměřuje na dimenzi odborníka nebo zařízení, což pomáhá zvládat, jak jsou tokeny efektivně zpracovávány různými odborníky nebo zařízeními [1].

2. Drohování tokenu na úrovni zařízení: Strategie primárně pracuje na úrovni zařízení, kde jsou rozdělena všechna skóre odborníků, a žetony s nejnižší pravděpodobností jsou zrušeny. Tím je zajištěno, že každé zařízení dokáže spravovat své zatížení, aniž by ohromilo jediný jediný odborník a přitom udržoval celkovou účinnost výkonu [1].

3. Zaručená retence tokenů: DeepSeek provedl konkrétní strategii, aby zajistila, že přibližně 10% žetonů z tréninkových sekvencí nebude nikdy zrušeno. To je zásadní pro zachování integrity údajů o školení a zajištění toho, aby byly v průběhu výcvikového procesu zachovány důležité informace [2] [6].

4. Vyvažování zátěže: Ve své nejnovější verzi, Deepseek-V3, se používá efektivní strategie vyrovnávání zátěže, která eliminuje potřebu klesnutí tokenu během tréninku úplně klesá. Dynamickým přizpůsobením zatížení odborníků a využitím cíle s více tmenovými predikcemi si Deepseek-V3 udržuje vyvážené rozdělení žetonů napříč odborníky, čímž zabrání jakékoli ztrátě dat během tréninku [2].

Tato opatření odrážejí závazek Deepseeka optimalizovat své tréninkové procesy a zároveň minimalizovat ztrátu dat a maximalizovat výpočetní účinnost.

Citace:
[1] https://github.com/deepseek-ai/deepseek-v2/issues/5
[2] https://arxiv.org/html/2412.19437v1
[3] https://www.tradingview.com/news/financemagnates:c7148CFCE094B:0-WHY-Is-Crypto-ing-Down-Fakeeek-tokens
[4] https://planetbanatt.net/articles/deepseek.html
[5] https://www.financemagnates.com/cryptocurrency/why-is-crypto-ing --deepseek-tokens-Tomens-of-traders/
[6] https://arxiv.org/html/2405.04434v5
[7] https://www.binance.com/square/post/19557042115937
[8] https://community.openai.com/t/will-deepseek-rce-openai-to-reduce-token-prices/1097716