Dekode spekulatif di Deepseek-R1: kecepatan inferensi yang semakin cepat

Bagaimana decoding spekulatif mempengaruhi latensi keseluruhan Deepseek-R1

Decoding spekulatif adalah teknik yang digunakan untuk mempercepat kecepatan inferensi model bahasa besar seperti Deepseek-R1 dengan memanfaatkan model konsep yang lebih kecil untuk menghasilkan token kandidat secara paralel. Pendekatan ini dapat secara signifikan mengurangi latensi dengan memungkinkan model untuk menghasilkan banyak token secara bersamaan, yang kemudian diverifikasi oleh model yang lebih besar untuk memastikan akurasi. Namun, sementara decoding spekulatif umumnya meningkatkan throughput, ia dapat memperkenalkan variabilitas dalam latensi karena proses verifikasi.

Bagaimana cara kerja decoding spekulatif

1. Generasi Token Paralel: Model draf yang lebih kecil menghasilkan banyak token kandidat secara paralel. Ini lebih cepat dari generasi berurutan oleh model yang lebih besar karena menggunakan akselerasi GPU lebih efisien [1] [3].

2. Proses verifikasi: Model yang lebih besar memverifikasi token kandidat ini. Jika mereka mencocokkan output yang diharapkan, mereka diterima; Kalau tidak, hanya token yang salah yang dihitung ulang [3] [9].

Dampak pada latensi

- Mengurangi latensi rata -rata: Decoding spekulatif dapat mengurangi latensi rata -rata dengan menghasilkan token lebih cepat. Ini karena model draf membutuhkan lebih sedikit sumber daya dan dapat beroperasi lebih cepat daripada model yang lebih besar [3] [5].

- Latensi variabel: Sementara decoding spekulatif meningkatkan throughput keseluruhan, itu dapat menyebabkan latensi yang tidak konsisten. Ketika prediksi model draf tidak benar, model yang lebih besar harus menghitung ulang, yang dapat menyebabkan lonjakan latensi [3] [9].

Spesifik

Deepseek-R1

Deepseek-R1 menggabungkan peningkatan seperti prediksi multi-token (MTP) dan decoding spekulatif yang dioptimalkan, yang selanjutnya meningkatkan kecepatan inferensi. MTP memungkinkan Deepseek-R1 untuk memprediksi beberapa token secara paralel, mengurangi latensi decoding tanpa mengurangi koherensi [4]. Dekode spekulatif yang dioptimalkan dalam Deepseek-R1 menggunakan pemeriksaan perjanjian probabilistik, menerima prediksi berdasarkan ambang kepercayaan daripada kecocokan yang tepat, yang mengurangi tingkat penolakan dan mempercepat inferensi [4].

Secara keseluruhan, decoding spekulatif dapat secara signifikan meningkatkan kinerja Deepseek-R1 dengan mengurangi latensi rata-rata dan meningkatkan throughput, tetapi dapat memperkenalkan variabilitas dalam latensi karena proses verifikasi.

Kutipan:
[1] https://centml.ai/resources/2x-inference-Peed-on-on-r1
[2] https://iaee.substack.com/p/deepseek-r1-intuityity-and- exbustility
[3] https://www.theregister.com/2024/12/15/speculative_decoding/
[4] https://aman.ai/primers/ai/deepseek-r1/
[5] https://arxiv.org/html/2503.07807v1
[6] https://www.reddit.com/r/localllama/comments/1i64ffn/draft_model_speculative_decoding_performance_with/with/
[7] https://arxiv.org/html/2502.02789
[8] https://www.linkedin.com/posts/lamersrick_i-worked-on-this-speculative-decode-version-activity-7293321395000819712-8yvc
[9] https://predibase.com/blog/predibase.com/blog/deepseek-r1-self-distilation-turbo-speculation
[10] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-r1-distilled-models-on-amazon-sagemaker-using-a-grarge-model-nerference-container/