Deepseek-V3'teki sigmoid geçitleme, yönlendirme çöküşünü önlemede önemli bir rol oynar, bu da birkaç uzmanın diğerleri üzerinde sürekli olarak tercih edildiği, model kaynaklarının verimsiz eğitimine ve kullanılmasına yol açan deneyimin karışımı (MOE) modellerinde yaygın bir konudur. Sigmoid geçitleme nasıl yardımcı olur:
Geleneksel Softmax Gating ve Sigmoid Gating
Geleneksel MOE modelleri genellikle "kazanan-hepsini al" senaryosuna yol açabilecek softmax geçitini kullanır. Softmax çıkışları, 1'e kadar toplam olduklarından emin olmak için normalleştirilir, bu da bir uzmanın neredeyse tamamen seçildiği aşırı olasılıklara neden olabilir, özellikle başlangıç ağırlıkları biraz daha iyiyse. Bu, diğer uzmanların yetersiz kullanılmasına ve yetersiz eğitilmesine neden olabilir ve bu da yönlendirme çökmesine neden olabilir.
Buna karşılık, Sigmoid Gating, her uzmana uzmanlar arasında normalizasyon yapmadan bağımsız olarak 0 ile 1 arasında bir puan atar. Bu, birden fazla uzmanın aynı anda yüksek puanlara sahip olabileceği ve jetonların uzmanlar arasında daha dengeli bir dağılımına izin verebileceği anlamına gelir. Sigmoid kapısı, uzmanlar arasında katı bir rekabeti zorlamamakta ve her uzmanın katkıda bulunmak için adil bir şans elde etmesini sağlayarak çökme olasılığını azaltmaz [1] [4] [6].
Dinamik Önyargı Ayarı
Deepseek-V3, her uzman için dinamik önyargı terimleri getirerek sigmoid kapıyı daha da geliştirir. Bu önyargılar, eğitim sırasında her uzmanın yüküne göre ayarlanır. Bir uzman aşırı yüklenirse, daha fazla yönlendirmeyi caydırmak için önyargısı azalırken, düşük uzmanların daha fazla jeton çekmek için önyargıları arttırır. Bu dinamik ayarlama, tüm uzmanlar arasında dengeli bir yükün korunmasına yardımcı olur, herhangi bir uzmanın yönlendirme kararlarına hakim olmasını önler ve böylece yönlendirme çöküşünü önler [2] [4] [6].
hiyerarşik geçit
Deepseek-V3 ayrıca, birden fazla seviyede seyrek kısıtlamalar uygulayan hiyerarşik geçit kullanır. Başlangıçta, kaba bir uzman seçimi yapılır, bunu seçilen gruplar içinde daha ince filtreleme yapılır. Bu hiyerarşik yaklaşım, her jeton için çeşitli uzmanların aktive edilmesini sağlar ve aşırı uzmanlaşmayı önleyerek ve farklı alanlarda genellemeyi teşvik ederek çökme riskini daha da azaltır [1] [6].
düğüm sınırlı yönlendirme
Ayrıca, Deepseek-V3, her bir jetonun iletişim kurabileceği düğüm sayısını kısıtlayan düğüm sınırlı yönlendirme kullanır. Bu strateji, dengeli uzman kullanımını sürdürürken verimli eğitim ve çıkarım sağlayarak düğümler arası iletişim yükünü en aza indirir [6].
Özetle, Deepseek-V3'teki sigmoid geçitleme, birden fazla uzmanın aralarında katı bir rekabeti zorlamadan aynı anda etkinleştirilmesine izin vererek yönlendirme çöküşünü önlemeye yardımcı olur. Dinamik önyargı ayarlaması ve hiyerarşik geçit, her bir uzmanın etkili bir şekilde kullanılmasını, dengeli bir yükü korumasını ve herhangi bir uzmanın yönlendirme kararlarına hakim olmasını engeller.
Alıntılar:
[1] https://www.linkedin.com/posts/Sathiyakeerthi_how-deepseek-v3-picks-portect-experts-activity-727631625310412800-ncyv
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://epochai.substack.com/p/how-has-deepseek-merroved-the-transformer
[4] https://machinelearningatscale.substack.com/p/deepseek-v3
[5] https://fireworks.ai/blog/deepseek-model-architecture
[6] https://aman.ai/primers/ai/deepseek-r1/
[7] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[8] https://www.kisekilabs.com/blog-posts/why-deepseek-v3-matters-in-the-world-of-lms