Deepseek-V3: Meningkatkan Perutean Ahli dengan Fungsi Sigmoid dalam Campuran Arsitektur Pakar

Bagaimana fungsi sigmoid berdampak pada perhitungan skor afinitas di Deepseek-V3

Dalam Deepseek-V3, fungsi sigmoid memainkan peran penting dalam perhitungan skor afinitas untuk perutean ahli dalam arsitektur campuran para ahli (MOE). Tidak seperti model MOE tradisional yang sering menggunakan fungsi softmax untuk menormalkan skor afinitas, Deepseek-V3 menggunakan fungsi sigmoid. Perubahan ini berdampak pada model dalam beberapa cara:

1. Normalisasi dan Routing: Fungsi sigmoid digunakan untuk menghitung skor afinitas, yang kemudian dinormalisasi di antara semua skor afinitas yang dipilih untuk menghasilkan nilai gating. Pendekatan ini memungkinkan mekanisme perutean yang lebih fleksibel dan bernuansa dibandingkan dengan Softmax, yang kadang -kadang dapat menyebabkan rute runtuh di mana para ahli tertentu terlalu disukai [4] [7].

2. Menghindari rute rollapse: Routing rollapse terjadi ketika sebagian besar token dialihkan ke sebagian kecil ahli, yang mengarah pada penggunaan sumber daya komputasi yang tidak efisien. Deepseek-V3 mengurangi ini dengan menggunakan gating sigmoid dan memperkenalkan istilah bias yang secara dinamis menyesuaikan selama pelatihan. Istilah bias ini membantu menyeimbangkan beban di seluruh ahli tanpa mengandalkan kerugian tambahan yang dapat berdampak negatif memengaruhi kinerja model [4] [9].

3. Istilah bias dan penyesuaian dinamis: Model ini menggabungkan istilah bias untuk setiap ahli, yang ditambahkan ke skor afinitas sebelum memilih para ahli Kop-K. Istilah bias ini disesuaikan secara dinamis berdasarkan beban masing -masing ahli. Jika seorang ahli kelebihan beban, istilah biasnya berkurang, dan jika itu kurang beban, istilah bias meningkat. Ini memastikan distribusi token yang seimbang di seluruh ahli tanpa perlu kerugian tambahan [4] [8].

4. Kehilangan tambahan yang komplementer-bijaksana: Meskipun Deepseek-V3 terutama menghindari kerugian tambahan, itu termasuk kerugian keseimbangan urutan kecil untuk mencegah kasus ekstrem di mana urutan tunggal sangat menyukai sebagian kecil ahli. Kerugian ini bertindak sebagai perlindungan tanpa memengaruhi keseluruhan dinamika pelatihan secara keseluruhan [4].

5. Routing terbatas simpul: Untuk mengontrol biaya komunikasi, Deepseek-V3 menggunakan perutean terbatas simpul, di mana masing-masing token dikirim ke sebagian besar n node berdasarkan skor afinitas tertinggi. Strategi ini memungkinkan tumpang tindih komputasi-komputasi yang hampir penuh selama pelatihan, meningkatkan efisiensi [4].

Secara keseluruhan, penggunaan fungsi sigmoid di Deepseek-V3 memungkinkan mekanisme perutean yang lebih fleksibel dan efisien, berkontribusi pada kemampuan model untuk menyeimbangkan pemanfaatan ahli tanpa mengorbankan kinerja.

Kutipan:
[1] https://www.linkedin.com/posts/srijanie-dey_aibyhand-deeplearning-neuralnetworks-activity-7291477904792657920-rye_
[2] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-takeaways-from-deepseek-v3?lang=en
[3] https://docs.openvino.ai/2025/notebooks/yolov11-keypoint-detection-with-output.html
[4] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[5] https://ai.gopubby.com/deepseek-v3-Explained-3-auxiliary-loss-fread-boad-bealice-4beeb734ab1f
[6] https://neurips.cc/virtual/2024/poster/96407
[7] https://www.gdsprs.com/bbs/board.php?bo_table=free&wr_id=2559&sst=wr_hit&sod=desc&sop=and&page=147&device=pc
[8] https://www.mlsys.ai/papers/deepseek_v3.html
[9] https://gonzoml.substack.com/p/deepseek-v3-technical-details