Token che cade la prevenzione nell'addestramento di DeepSeek: Architettura MOE e strategie

Quali misure prende DeepEek per impedire la caduta del token durante l'allenamento

DeepSeek impiega diverse strategie per prevenire la caduta di token durante la formazione, in particolare nella sua architettura di miscela di esperti (MOE). Ecco le misure chiave:

1. Strategia di fusione di token: DeepSeek utilizza un approccio di caduta di token basato su probabilità di routing, simile ai modelli MOE convenzionali. Ciò significa che i token vengono eliminati in base ai loro punteggi, garantendo che solo i token meno importanti vengano scartati quando il conteggio dei token supera una certa capacità. La capacità viene calcolata in modo diverso a seconda che l'attenzione sia focalizzata sulla dimensione di esperti o dispositivi, il che aiuta a gestire in modo efficace i token elaborati da diversi esperti o dispositivi [1].

2. Droping token a livello di dispositivo: la strategia opera principalmente a livello di dispositivo in cui vengono ordinati tutti i punteggi degli esperti e i token con le probabilità più basse vengono eliminati. Ciò garantisce che ciascun dispositivo possa gestire il proprio carico senza schiacciare qualsiasi singolo esperto pur mantenendo l'efficienza complessiva delle prestazioni [1].

3. Conservazione dei token garantiti: DeepSeek ha implementato una strategia specifica per garantire che circa il 10% dei token dalle sequenze di allenamento non verrà mai abbandonato. Ciò è cruciale per mantenere l'integrità dei dati di formazione e garantire che siano preservate informazioni importanti durante il processo di formazione [2] [6].

4. Bilanciamento del carico: nella sua ultima versione, viene impiegata DeepSeek-V3, viene impiegata un'efficace strategia di bilanciamento del carico che elimina la necessità di essere del tutto il token durante la formazione. Regolando dinamicamente i carichi di esperti e utilizzando un obiettivo di previsione multi-dire, DeepSeek-V3 mantiene una distribuzione bilanciata di token tra gli esperti, impedendo così qualsiasi perdita di dati durante la formazione [2].

Queste misure riflettono l'impegno di DeepSeek nell'ottimizzare i suoi processi di formazione minimizzando al contempo la perdita di dati e massimizzando l'efficienza computazionale.

Citazioni:
[1] https://github.com/deepseek-ai/deepseek-v2/issues/5
[2] https://arxiv.org/html/2412.19437v1
[3] https://www.tradingview.com/news/financemagnates:c7148cfce094b:0-why-is-crypto-dom-deepseek-tokens-affect-thef-of-traders/
[4] https://planetbanatt.net/articles/deepseek.html
[5] https://www.financemagnates.com/cryptocurrency/why-is-crypto-growing-down-deepseek-tokens-affect-th migliaia di traders/
[6] https://arxiv.org/html/2405.04434v5
[7] https://www.binance.com/square/post/19557042115937
[8] https://community.openai.com/t/will-deepseek-rce-force-openai-to-reduce-token-prices/1097716