Deepseek-V2 ve Deepseek-V3'teki uzman yönlendirme mekanizmalarının karşılaştırılması

Deepseek-V2 ve Deepseek-V3'teki uzman yönlendirme mekanizmaları arasındaki temel farklar nelerdir?

Deepseek-V2 ve Deepseek-V3'teki uzman yönlendirme mekanizmaları arasındaki temel farklar aşağıdaki gibi özetlenebilir:

Deepseek-V2 Uzman Yönlendirme

-Cihaz sınırlı yönlendirme mekanizması: Deepseek-V2, uzmanları birden çok cihazda dağıtmak için bir cihaz sınırlı yönlendirme mekanizması kullanır. Bu yaklaşım, her jeton için hedef uzmanların, genellikle bu cihazlardan en iyi K uzmanlarını seçerek sınırlı sayıda cihaza yayılmasını sağlar. Bu strateji iletişim ek yükünün yönetilmesine yardımcı olur ve verimli paralel işleme sağlar [1] [5].

-Yük bakiyesi için yardımcı kayıplar: Deepseek-V2, eğitim sırasında yük dengesini korumak için üç tür yardımcı kayıpların uzman seviyesi, cihaz seviyesi ve iletişim seviyesi sunar. Bu kayıplar, diğerleri yetersiz kullanılırken, tek bir uzman kullanılmamasını sağlayarak yönlendirme çöküşünü önlemeye yardımcı olur [1] [6].

- Uzman sayısı ve aktivasyon: Deepseek-V2, 160 uzman artı iki ortak uzmana sahiptir ve çıkarım sırasında sadece altı uzman etkinleştirilir. Bu seçici aktivasyon, aktif parametrelerin sayısını önemli ölçüde azaltır, bu da modeli daha verimli hale getirir [5].

Deepseek-V3 Uzman Yönlendirme

- Artan uzman uzmanlığı: Deepseek-V3, katman başına yönlendirilmiş uzmanların sayısını 160'dan 256'ya artırarak MOE mimarisine dayanmaktadır. Bu artış, modelin bilgi ve bellek kapasitesini arttırır [2].

- Paylaşılan uzmanlar: Deepseek-V3, her zaman etkinleştirilen ortak uzmanlar kavramını korur. Her besleme ağı (FFN) katmanının bir paylaşılan uzmanı vardır ve tüm uzmanların etkinleştirildiği üç katman vardır, bu da modelin bağlamlar arasında ortak bilgileri yakalama yeteneğini geliştirir [2] [4].

-Token-uzmanlık yakınlığı: Jetonların uzmanlara atanması, gömme alanındaki jetondan uzmanlık yakınlığına dayanmaktadır. Bununla birlikte, Deepseek-V3, jetonların sürekli olarak aynı uzmanlara yönlendirilebileceği ve potansiyel olarak diğer uzmanların eğitimini engelleyebileceği yönlendirme çöküşüyle ilgili zorluklarla karşı karşıyadır [2].

- Agresif MOE Stratejisi: Deepseek-V3, daha verimli hesaplama ve ölçeklendirmeye izin veren eğitim için FP8 hassasiyetini kullanarak daha agresif bir MOE stratejisi benimser. Bu yaklaşım, modelin seyrek aktivasyondan etkili bir şekilde yararlanmasını sağlar ve çıkarım sırasında parametrelerin kullanımını optimize eder [2] [4].

Özetle, her iki model de verimli yönlendirme ve seyrek aktivasyon için MOE mimarileri kullanırken, Deepseek-V3 bu yaklaşımı artan uzman uzmanlığı, daha agresif MOE stratejileri ve paylaşılan uzman konfigürasyonlarında ayarlamalarla geliştirir. Deepseek-V2, cihaz sınırlı yönlendirme ve yük dengeleyen yardımcı kayıplar yoluyla ekonomik eğitim ve verimli çıkarım üzerine odaklanmaktadır.

Alıntılar:
[1] https://arxiv.org/pdf/2405.04434.pdf
[2] https://fireworks.ai/blog/deepseek-model-architecture
[3] https://www.chipstrat.com/p/deepseek-moe-and-v2
[4] https://dirox.com/post/deepseek-v3-the-open-source-ai-erolution
[5] https://thesalt.substack.com/p/deepseek-v2-a-huge-llm-with-fitter
[6] https://stratechery.com/2025/deepseek-faq/
[7] https://arxiv.org/html/2405.04434v3
[8] https://www.youtube.com/watch?v=4ucnsfbqmda