Sigmoid Gating dan Perhatian Laten Multi-Head di Deepseek-V3

Dapatkah Anda menjelaskan bagaimana Sigmoid Gating berinteraksi dengan arsitektur MLA di Deepseek-V3

Untuk memahami bagaimana Sigmoid Gating berinteraksi dengan arsitektur Multi-Head Latent Attention (MLA) di Deepseek-V3, mari kita uraikan komponen dan peran mereka dalam model.

Multi-Head Latent Attention (MLA)

** MLA adalah komponen kunci dari Deepseek-V3, yang dirancang untuk mengoptimalkan mekanisme perhatian dalam model berbasis transformator. Tidak seperti perhatian multi-head tradisional, MLA menggunakan kompresi sendi rendah untuk kunci dan nilai perhatian. Kompresi ini mengurangi dimensionalitas vektor kueri (Q), kunci (k), dan nilai (v) sebelum mereka memasuki mekanisme perhatian. Misalnya, jika input memiliki bentuk (Panjang Urutan Ã 2000), MLA dapat mengurangi vektor Q, K, dan V menjadi bentuk (Panjang Urutan Ã 100). Pengurangan ini secara signifikan meminimalkan cache kunci-nilai (KV) selama inferensi, yang mengarah ke waktu pemrosesan yang lebih cepat tanpa mengorbankan kinerja [5] [9].

Sigmoid Gating di Deepseek-V3

Dalam konteks Deepseek-V3, gating sigmoid digunakan bersama dengan kerangka kerja campuran (MOE). Kerangka MOE membagi jaringan saraf besar menjadi sub-jaringan khusus yang disebut 'para ahli.' Untuk setiap input, hanya sebagian dari para ahli ini yang diaktifkan. Sigmoid Gating diterapkan pada mekanisme perutean yang memutuskan ahli mana yang akan diaktifkan.

Interaksi

dengan MLA

Sementara MLA terutama berfokus pada mengoptimalkan proses perhatian, Sigmoid Gating berperan dalam kerangka MOE, yang merupakan komponen yang terpisah tetapi saling melengkapi dari Deepseek-V3. Kerangka kerja MOE menggunakan Sigmoid Gating untuk mengelola cara token dialihkan ke berbagai ahli. Tidak seperti softmax gating tradisional, yang dapat menyebabkan kasus -kasus ekstrem di mana para ahli tertentu disukai daripada yang lain, Sigmoid Gating membantu mempertahankan distribusi token yang lebih seimbang di seluruh ahli. Keseimbangan ini sangat penting untuk mencegah keruntuhan perutean, di mana model mungkin kembali berperilaku seperti model yang padat, kehilangan manfaat efisiensi dari arsitektur MOE [5].

Penyesuaian Bias Dinamis

Deepseek-V3 memperkenalkan penyesuaian bias dinamis untuk memastikan penyeimbangan beban di antara para ahli. Istilah bias ditambahkan ke skor afinitas ahli sebelum membuat keputusan perutean. Bias -bias ini disesuaikan secara dinamis selama pelatihan: jika seorang ahli kelebihan beban, biasnya berkurang, dan jika tidak dimuat, biasnya meningkat. Mekanisme ini memastikan bahwa beban tetap seimbang tanpa mengandalkan fungsi kehilangan tambahan, yang dapat berdampak negatif pada kinerja model [5].

Singkatnya, sementara MLA mengoptimalkan mekanisme perhatian untuk inferensi yang lebih cepat, gating sigmoid dalam kerangka kerja MOE membantu mengelola perutean token ke para ahli, memastikan pemanfaatan sumber daya komputasi yang efisien dan seimbang. Kombinasi ini meningkatkan kinerja dan efisiensi keseluruhan Deepseek-V3.

Kutipan:
[1] https://fireworks.ai/blog/deepseek-model-architecture
[2] https://huggingface.co/deepseek-ai/deepseek-v3
[3] https://arxiv.org/abs/1609.07160
[4] https://618media.com/en/blog/technical-architecture-of-deepseek-v3-Explained/
[5] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[6] https://www.reddit.com/r/localllama/comments/1i4em80/interesting_article_on_how_deepseek_has_improved/
[7] https://en.wikipedia.org/wiki/transformer_(deep_learning_architecture)
[8] https://ai.gopubby.com/deepseek-v3-explained-2-deepseekmoe-106cffcc56c1
[9] https://pub.towardsai.net/deepseek-r1-model-architecture-853fefac7050