Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Jakie środki podejmują Deepseek, aby zapobiec spadaniu tokenów podczas treningu


Jakie środki podejmują Deepseek, aby zapobiec spadaniu tokenów podczas treningu


DeepSeek stosuje kilka strategii zapobiegania upuszczaniu tokenów podczas szkolenia, szczególnie w architekturze mieszanki ekspertów (MOE). Oto kluczowe miary:

1. Strategia rytmowania tokenów: Deepseek wykorzystuje podejście do upuszczania tokenu w oparciu o prawdopodobieństwa routingu, podobne do konwencjonalnych modeli MOE. Oznacza to, że tokeny są upuszczane zgodnie z ich wynikami, zapewniając, że tylko najmniej ważne tokeny są odrzucane, gdy liczba tokena przekracza pewną pojemność. Pojemność jest obliczana inaczej w zależności od tego, czy nacisk kładziony jest na wymiar ekspertów, czy urządzenie, który pomaga skutecznie przetwarzać tokeny przez różnych ekspertów lub urządzeń [1].

2. Zrzucanie tokenów na poziomie urządzenia: Strategia działa przede wszystkim na poziomie urządzenia, w którym wszystkie wyniki ekspertów są sortowane, a tokeny o najniższych prawdopodobieństwach są upuszczane. Zapewnia to, że każde urządzenie może zarządzać swoim obciążeniem bez przytłaczania każdego eksperta, jednocześnie utrzymując ogólną wydajność wydajności [1].

3. Gwarantowane retencja tokenów: Deepseek wdrożył określoną strategię, aby zapewnić, że około 10% tokenów z sekwencji szkoleniowych nigdy nie zostanie zrzuconych. Ma to kluczowe znaczenie dla utrzymania integralności danych szkoleniowych i zapewnienia, że ​​ważne informacje są zachowane w trakcie procesu szkoleniowego [2] [6].

4. Równoważenie obciążenia: W swojej najnowszej wersji Deepseek-V3 stosuje się skuteczną strategię równoważenia obciążenia, która eliminuje potrzebę spadania tokenów podczas szkolenia. Dzięki dynamicznej regulacji obciążeń ekspertów i wykorzystaniu wielozadaniowego celu prognozowania, Deepseek-V3 utrzymuje zrównoważony rozkład tokenów u ekspertów, zapobiegając w ten sposób utraty danych podczas szkolenia [2].

Środki te odzwierciedlają zaangażowanie Deepseek w optymalizację procesów szkoleniowych przy jednoczesnym minimalizowaniu utraty danych i maksymalizacji wydajności obliczeniowej.

Cytaty:
[1] https://github.com/deepseek-ai/deepseek-v2/issues/5
[2] https://arxiv.org/html/2412.19437v1
[3] https://www.tradingview.com/news/financeMagnates:c7148cfce094b:0 -why-is-crypto-gold-fake-deepseek-tokens-affect-thish-of-traders/
[4] https://planetbanatt.net/articles/deepseek.html
[5] https://www.financeMagnates.com/cryptoCurrency/Why-is-Rrypto-ing-down-fake-deepseek-tokens-affect-thishia-of-traders/
[6] https://arxiv.org/html/2405.04434v5
[7] https://www.binance.com/square/post/19557042115937
[8] https://community.openai.com/t/will-deepseek-r1-force-openai-to-reduce-token-prices/1097716