Deepseek-R1 meningkatkan decoding spekulatif melalui beberapa inovasi utama, termasuk penguatan rute ahli berbasis penguatan (RL) dan prediksi multi-token (MTP). Beginilah routing ahli berbasis RL berkontribusi pada decoding spekulatif:
Routing ahli berbasis
RL
1. Penugasan Token Dinamis: Deepseek-R1 menggunakan RL untuk secara dinamis menetapkan token kepada para ahli berdasarkan embeddings kontekstual. Ini adalah keberangkatan dari metode perutean statis yang digunakan dalam model sebelumnya seperti Deepseek-V3. Kebijakan RL, dilambangkan sebagai $$ \ pi _ {\ theta} $$, menyesuaikan probabilitas memilih ahli $$ e_i $$ untuk token $$ t $$ berdasarkan token embeddings $$ u_t $$ [1].
2. Tujuan Optimalisasi: Kebijakan RL dioptimalkan menggunakan kerangka kerja Optimasi Kebijakan Relatif Grup (GRPO). GRPO bertujuan untuk memaksimalkan hadiah kumulatif sambil meminimalkan entropi perutean dan mencegah kelebihan muatan ahli tertentu. Ini memastikan bahwa token didistribusikan secara efisien di seluruh ahli, mengoptimalkan penyeimbangan beban dan kecepatan inferensi [1].
3. Istilah bias dinamis: Fungsi routing menggabungkan istilah bias dinamis yang memodulasi pemilihan ahli berdasarkan umpan balik pelatihan. Kemampuan beradaptasi ini memungkinkan model untuk memperbaiki pemetaan token-ekspert dari waktu ke waktu, meningkatkan efisiensi inferensi tanpa mengurangi akurasi [1].
Dampak pada decoding spekulatif
Dekode spekulatif di Deepseek-R1 melibatkan memprediksi beberapa token secara paralel dan memverifikasi sebelum menyelesaikan output. Routing ahli berbasis RL meningkatkan decoding spekulatif dengan:
- Meningkatkan Efisiensi Prediksi Token: Dengan secara dinamis mengoptimalkan penugasan token dan penyeimbangan beban, perutean berbasis RL memastikan bahwa model dapat menangani peningkatan tuntutan komputasi decoding spekulatif secara lebih efisien. Hal ini memungkinkan generasi yang lebih cepat dari beberapa token tanpa mengorbankan koherensi atau akurasi [1] [2].
-Meningkatkan kemampuan adaptasi: Sifat adaptif dari perutean berbasis RL memungkinkan Deepseek-R1 untuk menyesuaikan strategi prediksi tokennya berdasarkan kompleksitas dan konteks urutan input. Kemampuan beradaptasi ini sangat penting untuk mempertahankan output berkualitas tinggi selama decoding spekulatif, di mana model harus memprediksi dan memverifikasi beberapa token secara bersamaan [1] [4].
- Mengurangi latensi: Dengan mengoptimalkan proses perutean, Deepseek-R1 dapat menghasilkan teks lebih cepat sambil mempertahankan akurasi. Pengurangan latensi ini sangat bermanfaat untuk decoding spekulatif, di mana menghasilkan banyak token sekaligus secara signifikan mempercepat proses inferensi keseluruhan [2] [3].
Singkatnya, routing ahli berbasis RL di Deepseek-R1 meningkatkan decoding spekulatif dengan meningkatkan efisiensi prediksi token, kemampuan adaptasi model, dan mengurangi latensi, yang semuanya sangat penting untuk mempertahankan output berkualitas tinggi sambil mempercepat pembuatan teks.
Kutipan:
[1] https://aman.ai/primers/ai/deepseek-r1/
[2] https://centml.ai/resources/2x-inference-Peed-on-R1
[3] https://neuralmagic.com/blog/optimizing-vllm-for-deepseek-r1/
[4] https://www.thewirechina.com/wp-content/uploads/2025/01/deepseek-r1-document.pdf
[5] https://www.reddit.com/r/localllama/comments/1i64ffn/draft_model_speculative_decoding_performance_with/with/
[6] https://aws.amazon.com/blogs/machine-learning/optimize-hostting-deepseek-r1-distilled-models-with-hugging-face-tgi-on-amazon-sagemaker-ai/
[7] https://huggingface.co/papers?q=deepseek-r1
[8] https://predibase.com/blog/predibase.com/blog/deepseek-r1-self-distilation-turbo-speculation
[9] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-r1-distilled-models-on-amazon-sagemaker-using-a-grarge-model-fontainer/