DeepSeek impiega diverse strategie per prevenire la caduta di token durante la formazione, in particolare nella sua architettura di miscela di esperti (MOE). Ecco le misure chiave:
1. Strategia di fusione di token: DeepSeek utilizza un approccio di caduta di token basato su probabilità di routing, simile ai modelli MOE convenzionali. Ciò significa che i token vengono eliminati in base ai loro punteggi, garantendo che solo i token meno importanti vengano scartati quando il conteggio dei token supera una certa capacità. La capacità viene calcolata in modo diverso a seconda che l'attenzione sia focalizzata sulla dimensione di esperti o dispositivi, il che aiuta a gestire in modo efficace i token elaborati da diversi esperti o dispositivi [1].
2. Droping token a livello di dispositivo: la strategia opera principalmente a livello di dispositivo in cui vengono ordinati tutti i punteggi degli esperti e i token con le probabilità più basse vengono eliminati. Ciò garantisce che ciascun dispositivo possa gestire il proprio carico senza schiacciare qualsiasi singolo esperto pur mantenendo l'efficienza complessiva delle prestazioni [1].
3. Conservazione dei token garantiti: DeepSeek ha implementato una strategia specifica per garantire che circa il 10% dei token dalle sequenze di allenamento non verrà mai abbandonato. Ciò è cruciale per mantenere l'integrità dei dati di formazione e garantire che siano preservate informazioni importanti durante il processo di formazione [2] [6].
4. Bilanciamento del carico: nella sua ultima versione, viene impiegata DeepSeek-V3, viene impiegata un'efficace strategia di bilanciamento del carico che elimina la necessità di essere del tutto il token durante la formazione. Regolando dinamicamente i carichi di esperti e utilizzando un obiettivo di previsione multi-dire, DeepSeek-V3 mantiene una distribuzione bilanciata di token tra gli esperti, impedendo così qualsiasi perdita di dati durante la formazione [2].
Queste misure riflettono l'impegno di DeepSeek nell'ottimizzare i suoi processi di formazione minimizzando al contempo la perdita di dati e massimizzando l'efficienza computazionale.
Citazioni:
[1] https://github.com/deepseek-ai/deepseek-v2/issues/5
[2] https://arxiv.org/html/2412.19437v1
[3] https://www.tradingview.com/news/financemagnates:c7148cfce094b:0-why-is-crypto-dom-deepseek-tokens-affect-thef-of-traders/
[4] https://planetbanatt.net/articles/deepseek.html
[5] https://www.financemagnates.com/cryptocurrency/why-is-crypto-growing-down-deepseek-tokens-affect-th migliaia di traders/
[6] https://arxiv.org/html/2405.04434v5
[7] https://www.binance.com/square/post/19557042115937
[8] https://community.openai.com/t/will-deepseek-rce-force-openai-to-reduce-token-prices/1097716