Deepseek'in Experts karışımı (MOE) sistemi, yüksek performansı korurken parametre kullanımını ve hesaplama maliyetlerini optimize eden yenilikçi mimari stratejiler yoluyla verimliliği artırır.
Geliştirilmiş verimlilik için temel stratejiler
1. İnce taneli uzman segmentasyonu:
Deepseekmoe, uzmanları daha küçük, daha uzmanlaşmış birimlere ayırma yöntemi sunar. BeedForward Sinir Ağı'nın (FFN) ara gizli boyutlarını bölerek, sistem genel parametre sayımını artırmadan daha fazla sayıda ince taneli uzmanı etkinleştirebilir. Bu ince segmentasyon, uzmanlar arasında daha kesin bir bilgi tahsisi sağlar, bu da her uzmanın verilerin farklı yönlerine odaklanmasını sağlar, böylece aktif parametreler arasında uzmanlaşmayı ve fazlalığı azaltır [1] [2].
2. Paylaşılan uzman izolasyonu:
Mimari, belirli uzmanları her zaman etkinleştirilen paylaşılan varlıklar olarak işlev görecek şekilde izole eder. Bu strateji, diğer yönlendirilmiş uzmanlar arasında fazlalığı azaltan çeşitli bağlamlarda ortak bilgileri yakalar ve birleştirir. Bu paylaşılan uzmanlara ortak bilgileri sıkıştırarak Deepseekmoe, her yönlendirilmiş uzmanın benzersiz bilgilere odaklanabilmesini, böylece parametre verimliliğini ve uzmanlaşmasını artırabilmesini sağlar [2] [4].
Performans Sonuçları
Deepseekmoe, daha az hesaplama ile önemli performans kazanımları gösterir. Örneğin, 2 milyar parametreli bir model, hesaplama kaynaklarının sadece% 40'ını kullanırken daha büyük modellerle (örn., 2.9 milyar parametreli GSHARD) karşılaştırılabilir sonuçlar elde eder [1]. Ayrıca, 16 milyar parametreye kadar ölçeklendirildiğinde, hesaplama taleplerini önemli ölçüde azaltırken LLAMA2 gibi diğer modellere karşı rekabetçi performansı korur [1] [2].
Özetle, Deepseek'in MOE sistemi, uzmanlaşmış uzmanların hedefli aktivasyonuna izin vererek ve paylaşılan bilgi yapıları aracılığıyla fazlalığı en aza indirerek verimliliği artırır. Bu, karmaşık görevleri etkili bir şekilde ele alabilen güçlü ancak kaynak açısından verimli bir modelle sonuçlanır.
Alıntılar:[1] https://aclanthology.org/2024.acl-long.70/
[2] https://arxiv.org/html/2401.06066v1
[3] https://www.reddit.com/r/localllamama/comments/1clkld3/deepseekv2_a_strong_economical_and_feficcive/
[4] https://aclanthology.org/2024.acl-long.70.pdf
[5] https://arxiv.org/abs/2405.04434
[6] https://adasci.org/deepseek-v3-splained-optimizizing-fort-and-scale/
[7] https://openreview.net/forum?id=mwhan6r7os
[8] https://seo.ai/blog/deepseek-ai-tatistics-and-facts
[9] https://arxiv.org/html/2405.04434v3
[10] https://daily.dev/blog/deepseek-verything you-need-to-nown-about-this-new-lm-in-one-place