Ce măsuri necesită Deepseek pentru a preveni scăderea jetonului în timpul antrenamentului

Deepseek folosește mai multe strategii pentru a preveni scăderea jetoanelor în timpul antrenamentului, în special în arhitectura sa de amestec de experți (MOE). Iată măsurile cheie:

1.. Strategie de scădere a token-ului: Deepseek utilizează o abordare de scădere a token-ului bazată pe probabilitățile de rutare, similar cu modelele MOE convenționale. Aceasta înseamnă că jetoanele sunt abandonate în funcție de scorurile lor, asigurându -se că doar cele mai puțin importante jetoane sunt aruncate atunci când numărul de jetoane depășește o anumită capacitate. Capacitatea este calculată diferit în funcție de faptul că accentul este pus pe dimensiunea expertului sau a dispozitivului, ceea ce ajută la gestionarea modului în care token -urile sunt procesate de diferiți experți sau dispozitive în mod eficient [1].

2.. Scăderea jetonului la nivel de dispozitiv: Strategia funcționează în principal la nivelul dispozitivului, unde sunt sortate toate scorurile de experți, iar jetoanele cu cele mai mici probabilități sunt abandonate. Acest lucru asigură că fiecare dispozitiv își poate gestiona încărcarea fără a copleși niciun expert unic, menținând în același timp eficiența generală a performanței [1].

3. Retenția de jetoane garantate: Deepseek a implementat o strategie specifică pentru a se asigura că aproximativ 10% din jetoane din secvențele de instruire nu vor fi niciodată abandonate. Acest lucru este crucial pentru menținerea integrității datelor de instruire și pentru a se asigura că informațiile importante sunt păstrate pe parcursul procesului de instruire [2] [6].

4. Echilibrarea încărcăturii: În ultima sa versiune, DeepSeek-V3, se folosește o strategie eficientă de echilibrare a sarcinilor care elimină nevoia de scădere a jetoanelor în timpul antrenamentului. Prin ajustarea dinamică a încărcărilor de experți și folosind un obiectiv de predicție multi-token, Deepseek-V3 menține o distribuție echilibrată a jetoanelor între experți, împiedicând astfel orice pierdere de date în timpul instruirii [2].

Aceste măsuri reflectă angajamentul DeepSeek de a -și optimiza procesele de instruire, reducând în același timp pierderea de date și maximizând eficiența computațională.

Citări:
[1] https://github.com/deepseek-ai/deepseek-v2/issues/5
[2] https://arxiv.org/html/2412.19437v1
[3] https://www.tradingview.com/news/financemagnates:c7148cfce094b:0-why-is-crypto-wing-down-efke-eepseek-tokens-afect-th miiss-of-traders/
[4] https://planetbanatt.net/articles/deepseek.html
]
[6] https://arxiv.org/html/2405.04434v5
[7] https://www.binance.com/square/post/19557042115937
[8] https://community.openai.com/t/will-deepseek-r1-force-openai-to-reduce-token-prices/1097716

Cei