Preprečevanje žetona v Deepseek Trening: Moe Arhitektura in strategije

Katere ukrepe sprejme Deepseek, da prepreči upad žetona med treningom

Deepseek uporablja več strategij za preprečevanje padca žetona med usposabljanjem, zlasti v svoji arhitekturi mešanice eksperit (MOE). Tu so ključni ukrepi:

1. Strategija za spuščanje žetonov: Deepseek uporablja žetonski pristop, ki temelji na usmerjanju verjetnosti, podobno kot običajni modeli MOE. To pomeni, da se žetoni spustijo glede na njihove rezultate, kar zagotavlja, da se le najmanj pomembni žetoni zavržejo, ko število žetonov presega določeno zmogljivost. Zmogljivost se izračuna drugače, odvisno od tega, ali je poudarek na strokovnjaku ali dimenziji naprave, ki pomaga pri učinkovito obdelavo, kako tokene obdelujejo različni strokovnjaki ali naprave [1].

2. Spuščanje žetona na ravni naprave: Strategija deluje predvsem na ravni naprave, kjer so razvrščeni vsi strokovni rezultati, žetoni z najnižjo verjetnostjo pa padejo. To zagotavlja, da lahko vsaka naprava upravlja svojo obremenitev, ne da bi preplavila katerega koli posameznega strokovnjaka, hkrati pa še vedno ohranja splošno učinkovitost uspešnosti [1].

3. Zajamčeno zadrževanje žetonov: Deepseek je izvedel posebno strategijo, s katero se bo približno 10% žetonov iz zaporedja usposabljanja nikoli ne bo zmanjšalo. To je ključnega pomena za ohranjanje celovitosti podatkov o usposabljanju in zagotavljanje, da se v celotnem procesu usposabljanja ohranijo pomembne informacije [2] [6].

4. Uravnavanje obremenitve: V svoji najnovejši različici je uporabljena učinkovita strategija uravnoteženja obremenitve, ki odpravlja potrebo po padcu žetona med treningom. Z dinamično prilagajanjem strokovnih obremenitev in uporabo cilja napovedovanja z več tok, Deepseek-V3 ohranja uravnoteženo porazdelitev žetonov med strokovnjaki in tako preprečuje kakršno koli izgubo podatkov med usposabljanjem [2].

Ti ukrepi odražajo zavezanost Deepseeka za optimizacijo svojih procesov usposabljanja, hkrati pa zmanjšujejo izgubo podatkov in povečajo računsko učinkovitost.

Navedbe:
[1] https://github.com/deepseek-ai/deepseek-v2/issies/5
[2] https://arxiv.org/html/2412.19437V1
[3] https://www.tradingview.com/news/financeMagnates:c7148cfce094b:0-why-why-crypto-hoing-hoing-fake-eepseek-tokens-affect-thonats-of-raders/of-raders
[4] https://planetbanatt.net/articles/deepseek.html
[5] https://www.financemagnates.com/crypturrency/why-is-crypto-ging-hoing-fake-deepseek-tokens-affect-thotals-of-raders/
[6] https://arxiv.org/html/2405.04434V5
[7] https://www.binance.com/square/post/19557042115937
[8] https://community.openai.com/t/will-deepseek-r1-force-penai-to-reduce-token-prices/1097716