Skor Afinitas dalam Deepseek-V3: Seleksi Ahli dalam Arsitektur Campuran-Eksperten

Dapatkah Anda menjelaskan peran skor afinitas dalam proses seleksi ahli Deepseek-V3

Dalam Deepseek-V3, skor afinitas memainkan peran penting dalam proses seleksi ahli dalam arsitektur campuran-ekspert (MOE). Arsitektur ini dirancang untuk secara efisien menangani tugas pemodelan bahasa skala besar dengan secara dinamis mengaktifkan subset ahli berdasarkan token input.

Perhitungan skor afinitas ###

Skor afinitas dihitung sebagai produk titik dari embedding token input dan centroid ahli tertentu. Centroid dapat dianggap sebagai vektor representatif untuk setiap ahli, yang mungkin berasal dari aktivasi atau input rata -rata yang diproses oleh ahli. Produk DOT ini mengukur seberapa dekat token dengan keahlian masing -masing ahli yang tersedia.

Proses seleksi ahli ###

1. Routing Top-K: Untuk setiap token input, Deepseek-V3 memilih 8 ahli teratas dengan skor afinitas tertinggi. Proses ini dikenal sebagai Routing Top-K, di mana K ditetapkan pada 8 dalam kasus ini [1] [7].

2. Penyesuaian Bias: Untuk mencegah rute rollaps, di mana terlalu banyak token yang dialihkan ke para ahli yang sama, Deepseek-V3 memperkenalkan penyesuaian bias yang dinamis. Setiap ahli memiliki istilah bias $$ b_i $$ yang ditambahkan ke skor afinitasnya selama perutean. Jika seorang ahli kelebihan beban, biasnya berkurang, dan jika kurang dimanfaatkan, biasnya meningkat. Penyesuaian ini membantu mempertahankan beban kerja yang seimbang di semua ahli tanpa menggunakan kerugian tambahan eksplisit [1] [3].

3. Mekanisme Gating: Mekanisme gating menghitung skor untuk setiap token dan memilih para ahli yang paling relevan berdasarkan skor ini. Ini memastikan bahwa model secara efisien mengalokasikan sumber daya komputasi dengan hanya mengaktifkan para ahli yang diperlukan untuk setiap token [3].

manfaat dari skor afinitas

- Efisiensi: Dengan memilih ahli berdasarkan skor afinitas, Deepseek-V3 mengurangi biaya komputasi dengan hanya mengaktifkan sebagian kecil dari total parameter model untuk setiap token. Ini menghasilkan proses inferensi dan pelatihan yang lebih efisien [4] [8].

- Spesialisasi: Skor afinitas memungkinkan spesialisasi yang lebih baik di antara para ahli. Setiap ahli dapat fokus pada pola atau tugas tertentu, meningkatkan kekuatan representasional keseluruhan model dan kemampuan untuk menangani beragam input [1] [2].

- Stabilitas: Penyesuaian bias dinamis memastikan bahwa tidak ada ahli yang kelebihan beban, menjaga stabilitas selama pelatihan dan inferensi. Ini mencegah model menjatuhkan token karena kelebihan beban, yang merupakan masalah dalam versi sebelumnya [2] [3].

Singkatnya, skor afinitas dalam Deepseek-V3 sangat penting untuk secara dinamis memilih para ahli yang paling relevan untuk setiap token input, memastikan pemrosesan yang efisien dan khusus sambil mempertahankan stabilitas model.

Kutipan:
[1] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://www.youtube.com/watch?v=bv7ct-_spqy
[4] https://www.linkedin.com/pulse/what-main-benefit-sixture-experts-moe-odels-qi-e-nkgbe
[5] https://www.linkedin.com/pulse/unpacking-deepseek-v3-technical-inovations-question-cost-statton-uplc
[6] https://latenode.com/blog/deepseek-v3-and-deepseek-r1-integrations-are-now-on-latenode
[7] https://www.linkedin.com/pulse/dynamically-slecting-number-expert-moe-models-leike-deepseek-rosi%c4%87-ckytf
[8] https://arxiv.org/html/2412.19437v1
[9] https://www.bentoml.com/blog/the-complete-guide-to-deepseek-models-from-v3-to-r1-and-beyond