Sigmoid Gating di Deepseek-V3: Mencegah runtuhnya rute dalam model campuran ahli

Bagaimana Sigmoid Gating membantu mencegah rute runtuh di Deepseek-V3

Sigmoid Gating di Deepseek-V3 memainkan peran penting dalam mencegah rute rollapse, masalah umum dalam campuran campuran (MOE) di mana beberapa ahli secara konsisten disukai daripada yang lain, yang mengarah pada pelatihan yang tidak efisien dan pemanfaatan sumber daya model. Begini cara membantu Sigmoid Gating:

Gating Softmax Tradisional vs Sigmoid Gating

Model MOE tradisional sering menggunakan softmax gating, yang dapat mengarah pada skenario "pemenang-pengambilan-semua". Output softmax dinormalisasi untuk memastikan jumlahnya menjadi 1, yang dapat menghasilkan probabilitas ekstrem di mana satu ahli dipilih hampir secara eksklusif, terutama jika bobot awalnya sedikit lebih baik. Hal ini dapat menyebabkan para ahli lain kurang dimanfaatkan dan dilatih, yang menyebabkan rute runtuh.

Sebaliknya, Sigmoid Gating memberi setiap ahli skor antara 0 dan 1 secara independen, tanpa normalisasi di seluruh ahli. Ini berarti bahwa beberapa ahli dapat memiliki skor tinggi secara bersamaan, memungkinkan untuk distribusi token yang lebih seimbang di seluruh ahli. Sigmoid Gating tidak menegakkan persaingan ketat di antara para ahli, mengurangi kemungkinan rute runtuh dengan memastikan bahwa setiap ahli mendapat kesempatan yang adil untuk berkontribusi [1] [4] [6].

Penyesuaian Bias Dinamis

Deepseek-V3 selanjutnya meningkatkan sigmoid gating dengan memperkenalkan istilah bias dinamis untuk setiap ahli. Bias ini disesuaikan selama pelatihan berdasarkan beban masing -masing ahli. Jika seorang ahli kelebihan beban, biasnya berkurang untuk mencegah perutean lebih lanjut, sementara para ahli yang kurang dimuat meningkatkan bias mereka untuk menarik lebih banyak token. Penyesuaian dinamis ini membantu mempertahankan beban yang seimbang di semua ahli, mencegah setiap pakar tunggal mendominasi keputusan perutean dan dengan demikian mencegah keruntuhan perutean [2] [4] [6].

Gating hierarkis

Deepseek-V3 juga menggunakan gating hierarkis, yang menerapkan kendala sparsity di berbagai tingkatan. Awalnya, pilihan ahli kasar dibuat, diikuti oleh penyaringan yang lebih halus dalam kelompok yang dipilih. Pendekatan hierarkis ini memastikan bahwa beragam ahli diaktifkan untuk setiap token, lebih lanjut mengurangi risiko rute runtuh dengan mencegah spesialisasi berlebihan dan mendorong generalisasi di berbagai domain [1] [6].

routing terbatas node

Selain itu, Deepseek-V3 menggunakan routing terbatas simpul, yang membatasi jumlah node yang dapat dikomunikasikan oleh masing-masing token. Strategi ini meminimalkan overhead komunikasi lintas simpul, memastikan pelatihan dan inferensi yang efisien sambil mempertahankan pemanfaatan ahli yang seimbang [6].

Singkatnya, gating sigmoid di Deepseek-V3 membantu mencegah rute runtuh dengan memungkinkan beberapa ahli diaktifkan secara bersamaan tanpa memaksa kompetisi yang ketat di antara mereka. Penyesuaian bias dinamis dan gating hierarkis lebih lanjut memastikan bahwa setiap ahli digunakan secara efektif, mempertahankan beban yang seimbang dan mencegah pakar mendominasi keputusan perutean.

Kutipan:
[1.
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://epochai.substack.com/p/how-has-deepseek-mproved-the-transformer
[4] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[5] https://fireworks.ai/blog/deepseek-model-architecture
[6] https://aman.ai/primers/ai/deepseek-r1/
[7] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[8] https://www.kisekilabs.com/blog-posts/why-deepseek-v3-matters-in-the-world-of-llms