Tujuan prediksi multi-token (MTP) dalam Deepseek-V3 secara signifikan meningkatkan efisiensi data dengan secara fundamental mengubah paradigma prediksi tradisional berikutnya. Alih -alih memprediksi hanya token berikutnya, MTP melatih model untuk memprediksi beberapa token masa depan secara bersamaan. Pendekatan ini memadamkan sinyal pelatihan, yang berarti bahwa untuk setiap urutan input, model membuat banyak prediksi, yang mengarah pada pemanfaatan data pelatihan yang lebih baik.
Efisiensi data yang ditingkatkan
1. Sinyal pelatihan yang padat: Dengan memprediksi beberapa token sekaligus, MTP meningkatkan kepadatan sinyal pelatihan. Model tradisional seperti GPT biasanya memprediksi satu token per posisi input, yang dapat meninggalkan banyak potensi prediktif urutan yang belum dimanfaatkan. Sebaliknya, MTP memastikan bahwa lebih banyak prediksi dibuat untuk setiap urutan input, sehingga meningkatkan efisiensi data dan mempercepat hasil pembelajaran [1] [4].
2. Perencanaan Representasi Peningkatan: Tujuan MTP mendorong model untuk mengembangkan representasi internal yang lebih kaya dengan mempertimbangkan ketergantungan jangka panjang dalam data. Dengan membutuhkan prediksi untuk beberapa token masa depan secara bersamaan, MTP memaksa model untuk menyandikan informasi yang lebih kontekstual di setiap posisi. Ini selaras lebih dekat dengan proses kognitif manusia ketika memahami bahasa, menghasilkan pemahaman yang lebih dalam tentang konteks dan makna dalam urutan [1] [4].
3. Kemampuan generalisasi yang lebih luas: Kemampuan untuk memprediksi beberapa token meningkatkan kemampuan model untuk menggeneralisasi di berbagai tugas yang membutuhkan penalaran atas konteks yang diperluas atau menghasilkan sekuens yang koheren. Ini sangat bermanfaat dalam tolok ukur kompleks seperti humaneval dan GSM8K, di mana perencanaan jangka panjang dan penalaran multi-langkah sangat penting [1] [4].
Potensi decoding spekulatif ###
Selama inferensi, tujuan MTP dapat memfasilitasi decoding spekulatif, di mana prediksi untuk beberapa token dihasilkan secara paralel daripada secara berurutan. Kemampuan ini dapat secara signifikan mengurangi latensi dan mempercepat waktu respons selama penyebaran model, membuatnya lebih efisien untuk aplikasi real-time [1] [6].
Singkatnya, tujuan MTP di Deepseek-V3 tidak hanya meningkatkan efisiensi pelatihan tetapi juga meningkatkan kemampuan prediktif model dan generalisasi di seluruh tugas yang kompleks, menandai kemajuan substansial dibandingkan metode prediksi tradisional berikutnya.
Kutipan:
[1] https://codingmall.com/knowledge-base/25-global/240692-how-does-deepseeks-hulti-token-prediction-mtp-bybective-enhance-performance
[2] https://dirox.com/post/deepseek-v3-the-open-source-ai-revolution
[3] https://blogs.novita.ai/what-are-the-requirements-for-deepseek-v3-inference/
[4] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-takeaways-from-deepseek-v3?lang=en
[5] https://blog.dataopslabs.com/deepseek-v3-oveview-training-and-bingmark-performance
[6] https://github.com/deepseek-ai/deepseek-v3/blob/main/readme.md
[7] https://mlfrontiers.substack.com/p/understanding-deepseek-v3
[8] https://www.deeplearning.ai/thech/deepseek-v3-redefines-llm-performance-and-cost-efficiency/
[9] https://www.youtube.com/watch?v=jl49flojyng