Deepseek, özellikle uzmanlık karışımı (MOE) mimarisinde, eğitim sırasında belirteç düşmesini önlemek için çeşitli stratejiler kullanır. İşte temel önlemler:
1. Token düşürme stratejisi: Deepseek, geleneksel MOE modellerine benzer şekilde yönlendirme olasılıklarına dayanan jeton açısından bir düşüş yaklaşımı kullanır. Bu, jetonların puanlarına göre düşürüldüğü anlamına gelir ve belirteç sayısı belirli bir kapasiteyi aştığında sadece en az önemli jetonların atılmasını sağlar. Kapasite, odağın uzman veya cihaz boyutuna bağlı olup olmadığına bağlı olarak farklı şekilde hesaplanır, bu da jetonların farklı uzmanlar veya cihazlar tarafından nasıl işlendiğini yönetmeye yardımcı olur [1].
2. Cihaz seviyesi jeton düşme: Strateji öncelikle tüm uzman puanlarının sıralandığı cihaz seviyesinde çalışır ve en düşük olasılıklara sahip belirteçler düşer. Bu, her cihazın hala genel performans verimliliğini korurken, herhangi bir uzmanı ezmeden yükünü yönetebilmesini sağlar [1].
3. Garantili jeton tutma: Deepseek, eğitim dizilerinden jetonların yaklaşık% 10'unun asla düşürülmemesini sağlamak için belirli bir strateji uygulamıştır. Bu, eğitim verilerinin bütünlüğünü korumak ve eğitim süreci boyunca önemli bilgilerin korunmasını sağlamak için çok önemlidir [2] [6].
4. Yük Dengeleme: En son sürümünde, Deepseek-V3'te, eğitim sırasında jeton düşme ihtiyacını ortadan kaldıran etkili bir yük dengeleme stratejisi kullanılır. Uzman yüklerini dinamik olarak ayarlayarak ve çok çekilmiş bir tahmin hedefi kullanarak, Deepseek-V3, jetonların uzmanlar arasında dengeli bir dağılımını korur ve böylece eğitim sırasında veri kaybını önler [2].
Bu önlemler, Deepseek'in veri kaybını en aza indirirken ve hesaplama verimliliğini en üst düzeye çıkarırken eğitim süreçlerini optimize etme taahhüdünü yansıtmaktadır.
Alıntılar:
[1] https://github.com/deepseek-ai/deepseek-v2/issues/5
[2] https://arxiv.org/html/2412.19437v1
[3] https://www.tradingview.com/news/financemagnates:c7148cfce094b:0-why-is-crypto-down-meepseek-tokens-affect-hins-pake-no-tro-traders/
[4] https://planetbanatt.net/articles/deepseek.html
[5] https://www.financemagnates.com/cryptocurrency/why-is-crypto-down-teepseek-tokens-affect-thino-no-ftraders/
[6] https://arxiv.org/html/2405.04434v5
[7] https://www.binance.com/square/post/19557042115937
[8] https://community.openai.com/t/will-deepseek-r1-force-openai-to-reduce-token-prices/1097716