Meningkatnya jumlah ahli yang dirutekan per lapisan di Deepseek-V3 secara signifikan berdampak pada kinerjanya dengan meningkatkan kapasitas dan efisiensi model. Berikut rincian terperinci:
Peningkatan kapasitas model
Deepseek-V3 meningkatkan jumlah ahli yang dirutekan per lapisan dari 160 dalam versi sebelumnya menjadi 256, yang memungkinkan spesialisasi dan keragaman yang lebih besar di antara para ahli [1]. Peningkatan jumlah ahli ini berarti bahwa setiap ahli dapat fokus pada subset tugas atau domain pengetahuan yang lebih spesifik, yang berpotensi mengarah pada kinerja model keseluruhan yang lebih baik. Kemampuan model untuk hanya mengaktifkan 8 ahli teratas untuk setiap token memastikan bahwa sumber daya komputasi secara efisien digunakan, karena hanya sebagian kecil dari total parameter yang terlibat pada waktu tertentu [4] [9].
Efisiensi Balancing dan Routing Load
Salah satu tantangan dengan meningkatkan jumlah ahli adalah risiko rute runtuh, di mana subset ahli menjadi terlalu dimanfaatkan sementara yang lain tetap menganggur. Deepseek-V3 membahas masalah ini dengan memperkenalkan istilah bias yang secara dinamis menyesuaikan selama pelatihan untuk memastikan keseimbangan beban di seluruh ahli [2] [4]. Istilah bias ini memengaruhi keputusan perutean tanpa mempengaruhi bobot output akhir, memastikan bahwa model mempertahankan routing optimal berdasarkan afinitas token sambil mencegah kelebihan muatan para ahli tertentu.
Efisiensi Komputasi
Penggunaan strategi perutean hibrida, menggabungkan perutean yang lembut dan keras, memungkinkan Deepseek-V3 untuk meningkatkan kapasitas pemodelan dengan overhead komputasi minimal. Dengan hanya mengaktifkan 8 ahli teratas untuk setiap token, model mencapai efisiensi komputasi yang signifikan dibandingkan dengan model padat tradisional, di mana semua parameter selalu aktif [5] [9]. Efisiensi ini sangat penting untuk model skala besar seperti Deepseek-V3, karena mengurangi waktu pelatihan dan inferensi sambil meminimalkan penggunaan memori.
Spesialisasi dan Representasi Pengetahuan
Arsitektur Deepseek-V3 mempromosikan spesialisasi di antara para ahli dengan memungkinkan masing-masing untuk fokus pada domain pengetahuan tertentu. Spesialisasi ini ditingkatkan dengan kehadiran para ahli bersama, yang menangkap pengetahuan umum yang berlaku di semua token [3] [4]. Kombinasi para ahli bersama dan dialihkan memastikan bahwa model dapat menangani pengetahuan umum dan khusus secara efektif, yang mengarah pada peningkatan kinerja pada beragam tugas.
Menghindari redundansi
Dengan meningkatkan jumlah ahli dan mengurangi ukurannya, Deepseek-V3 mengurangi redundansi dalam model. Setiap ahli lebih kecil tetapi lebih banyak, memungkinkan peningkatan besar dalam kombinasi ahli yang mungkin untuk setiap token tanpa meningkatkan jumlah total parameter [3]. Pendekatan ini memastikan bahwa setiap ahli mempelajari informasi unik, memaksimalkan kapasitas representasional model.
Singkatnya, peningkatan jumlah ahli yang dirutekan di Deepseek-V3 meningkatkan kinerja model dengan meningkatkan spesialisasi, efisiensi, dan penyeimbangan beban, sementara juga mengurangi biaya redundansi dan komputasi. Inovasi ini menjadikan Deepseek-V3 alat yang ampuh untuk tugas pemodelan bahasa skala besar.
Kutipan:
[1] https://fireworks.ai/blog/deepseek-model-architecture
[2] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[3] https://www.chrishayduk.com/p/understanding-deepseek-part-i-deepseekmoe
[4] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[5] https://mlfrontiers.substack.com/p/understanding-deepseek-v3
[6] https://www.byteplus.com/en/topic/375456
[7] https://mccormickml.com/2025/02/12/the-inner-workings-of-leep-seek-v3/
[8] https://epoch.ai/gradient-pradies/how-has-deepseek-mproved-the-transformer-architecture
[9] https://www.kisekilabs.com/blog-posts/why-deepseek-v3-matters-in-the-forld-of-llms
[10] https://semianalysis.com/2025/01/31/deepseek-debates/