Perbedaan utama antara mekanisme perutean ahli di Deepseek-V2 dan Deepseek-V3 dapat diringkas sebagai berikut:
routing ahli deepseek-v2
-Mekanisme perutean terbatas perangkat: Deepseek-V2 menggunakan mekanisme perutean terbatas perangkat untuk mendistribusikan para ahli di beberapa perangkat. Pendekatan ini memastikan bahwa para ahli target untuk setiap token tersebar di sejumlah perangkat terbatas, biasanya memilih para ahli Kop-K dari perangkat ini. Strategi ini membantu mengelola overhead komunikasi dan memastikan pemrosesan paralel yang efisien [1] [5].
-Kerugian tambahan untuk keseimbangan beban: Deepseek-V2 memperkenalkan tiga jenis kerugian tambahan tingkat ahli, tingkat perangkat, dan tingkat komunikasi untuk mempertahankan keseimbangan beban selama pelatihan. Kerugian ini membantu mencegah rute runtuh dengan memastikan bahwa tidak ada pakar tunggal yang terlalu dimanfaatkan sementara yang lain tetap kurang dimanfaatkan [1] [6].
- Jumlah ahli dan aktivasi: Deepseek-V2 memiliki 160 ahli ditambah dua ahli bersama, dengan hanya enam ahli diaktifkan selama inferensi. Aktivasi selektif ini secara signifikan mengurangi jumlah parameter aktif, membuat model lebih efisien [5].
routing ahli deepseek-v3
- Peningkatan spesialisasi ahli: Deepseek-V3 dibangun di atas arsitektur MOE dengan meningkatkan jumlah ahli yang dialihkan per lapisan sebesar 60%, dari 160 menjadi 256. Peningkatan ini meningkatkan kapasitas model untuk pengetahuan dan memori [2].
- Pakar bersama: Deepseek-V3 mempertahankan konsep para ahli bersama, yang selalu diaktifkan. Setiap lapisan Feed-Forward Network (FFN) memiliki satu ahli bersama, dan ada tiga lapisan di mana semua ahli diaktifkan, meningkatkan kemampuan model untuk menangkap pengetahuan umum di seluruh konteks [2] [4].
-Token-to-Expert Affinity: Penugasan token kepada para ahli didasarkan pada afinitas token-to-expert di ruang embedding. Namun, Deepseek-V3 menghadapi tantangan yang terkait dengan rute keruntuhan, di mana token dapat secara konsisten dialihkan ke para ahli yang sama, berpotensi menghambat pelatihan para ahli lain [2].
- Strategi MOE yang agresif: Deepseek-V3 mengadopsi strategi MOE yang lebih agresif, memanfaatkan presisi FP8 untuk pelatihan, yang memungkinkan komputasi dan penskalaan yang lebih efisien. Pendekatan ini memungkinkan model untuk memanfaatkan aktivasi jarang secara efektif, mengoptimalkan penggunaan parameter selama inferensi [2] [4].
Singkatnya, sementara kedua model menggunakan arsitektur MOE untuk routing yang efisien dan aktivasi yang jarang, Deepseek-V3 meningkatkan pendekatan ini dengan peningkatan spesialisasi ahli, strategi MOE yang lebih agresif, dan penyesuaian untuk konfigurasi ahli bersama. Deepseek-V2 berfokus pada pelatihan ekonomis dan inferensi yang efisien melalui perutean terbatas perangkat dan kerugian bantu yang menyeimbangkan beban.
Kutipan:
[1] https://arxiv.org/pdf/2405.04434.pdf
[2] https://fireworks.ai/blog/deepseek-model-architecture
[3] https://www.chipstrat.com/p/deepseek-moe-and-v2
[4] https://dirox.com/post/deepseek-v3-the-open-source-ai-revolution
[5] https://thesalt.substack.com/p/deepseek-v2-a-huge-llm-with-fefience
[6] https://stratechery.com/2025/deepseek-faq/
[7] https://arxiv.org/html/2405.04434v3
[8] https://www.youtube.com/watch?v=4ucnsfbqmda