Zapobieganie upuszczaniu tokenów w Szkoleniu Deepseek: Architektura i strategie Moe

Jakie środki podejmują Deepseek, aby zapobiec spadaniu tokenów podczas treningu

DeepSeek stosuje kilka strategii zapobiegania upuszczaniu tokenów podczas szkolenia, szczególnie w architekturze mieszanki ekspertów (MOE). Oto kluczowe miary:

1. Strategia rytmowania tokenów: Deepseek wykorzystuje podejście do upuszczania tokenu w oparciu o prawdopodobieństwa routingu, podobne do konwencjonalnych modeli MOE. Oznacza to, że tokeny są upuszczane zgodnie z ich wynikami, zapewniając, że tylko najmniej ważne tokeny są odrzucane, gdy liczba tokena przekracza pewną pojemność. Pojemność jest obliczana inaczej w zależności od tego, czy nacisk kładziony jest na wymiar ekspertów, czy urządzenie, który pomaga skutecznie przetwarzać tokeny przez różnych ekspertów lub urządzeń [1].

2. Zrzucanie tokenów na poziomie urządzenia: Strategia działa przede wszystkim na poziomie urządzenia, w którym wszystkie wyniki ekspertów są sortowane, a tokeny o najniższych prawdopodobieństwach są upuszczane. Zapewnia to, że każde urządzenie może zarządzać swoim obciążeniem bez przytłaczania każdego eksperta, jednocześnie utrzymując ogólną wydajność wydajności [1].

3. Gwarantowane retencja tokenów: Deepseek wdrożył określoną strategię, aby zapewnić, że około 10% tokenów z sekwencji szkoleniowych nigdy nie zostanie zrzuconych. Ma to kluczowe znaczenie dla utrzymania integralności danych szkoleniowych i zapewnienia, że ważne informacje są zachowane w trakcie procesu szkoleniowego [2] [6].

4. Równoważenie obciążenia: W swojej najnowszej wersji Deepseek-V3 stosuje się skuteczną strategię równoważenia obciążenia, która eliminuje potrzebę spadania tokenów podczas szkolenia. Dzięki dynamicznej regulacji obciążeń ekspertów i wykorzystaniu wielozadaniowego celu prognozowania, Deepseek-V3 utrzymuje zrównoważony rozkład tokenów u ekspertów, zapobiegając w ten sposób utraty danych podczas szkolenia [2].

Środki te odzwierciedlają zaangażowanie Deepseek w optymalizację procesów szkoleniowych przy jednoczesnym minimalizowaniu utraty danych i maksymalizacji wydajności obliczeniowej.

Cytaty:
[1] https://github.com/deepseek-ai/deepseek-v2/issues/5
[2] https://arxiv.org/html/2412.19437v1
[3] https://www.tradingview.com/news/financeMagnates:c7148cfce094b:0 -why-is-crypto-gold-fake-deepseek-tokens-affect-thish-of-traders/
[4] https://planetbanatt.net/articles/deepseek.html
[5] https://www.financeMagnates.com/cryptoCurrency/Why-is-Rrypto-ing-down-fake-deepseek-tokens-affect-thishia-of-traders/
[6] https://arxiv.org/html/2405.04434v5
[7] https://www.binance.com/square/post/19557042115937
[8] https://community.openai.com/t/will-deepseek-r1-force-openai-to-reduce-token-prices/1097716