Tujuan Prediksi Multi-Token (MTP) di Deepseek-V3 secara signifikan meningkatkan kinerja model dengan menggeser paradigma dari prediksi tradisional berikutnya ke pendekatan yang lebih holistik yang memprediksi banyak token secara bersamaan. Inovasi ini mengarah pada beberapa perbaikan utama:
Efisiensi data yang ditingkatkan
MTP meningkatkan kepadatan sinyal pelatihan dengan memungkinkan model membuat beberapa prediksi untuk setiap urutan input. Model tradisional, seperti GPT, biasanya memprediksi hanya satu token pada satu waktu, yang dapat meninggalkan banyak potensi prediktif urutan yang belum dimanfaatkan. Dengan memprediksi beberapa token, MTP memastikan pemanfaatan data pelatihan yang lebih baik, yang mengarah pada peningkatan hasil pembelajaran dan efisiensi keseluruhan [1] [2].Perencanaan Representasi yang Ditingkatkan
Tujuan ini mendorong model untuk mengembangkan representasi internal yang lebih kaya dengan mempertimbangkan ketergantungan jangka panjang dalam data. Dengan membutuhkan prediksi untuk beberapa token di masa depan sekaligus, MTP memaksa model untuk mengkodekan informasi yang lebih kontekstual di setiap posisi, menyelaraskan lebih dekat dengan proses kognitif manusia saat memahami bahasa. Ini menghasilkan pemahaman yang lebih dalam tentang konteks dan makna dalam urutan [1] [3].kemampuan generalisasi yang lebih luas
MTP meningkatkan kemampuan model untuk menggeneralisasi di berbagai tugas yang membutuhkan penalaran atas konteks yang diperluas atau menghasilkan urutan yang koheren. Ini sangat bermanfaat dalam tolok ukur kompleks seperti humaneval dan GSM8K, di mana perencanaan jangka panjang dan penalaran multi-langkah sangat penting. Kemampuan untuk mengantisipasi beberapa token yang akan datang memungkinkan model untuk menghasilkan output yang lebih koheren dan relevan secara kontekstual, sehingga meningkatkan kinerjanya pada tugas yang menuntut penalaran rumit [1] [4].potensi decoding spekulatif
Selama inferensi, MTP dapat memfasilitasi decoding spekulatif, di mana beberapa prediksi token dihasilkan secara paralel daripada secara berurutan. Kemampuan ini dapat secara signifikan mengurangi latensi dan mempercepat waktu respons selama penyebaran model, membuatnya lebih efisien untuk aplikasi real-time [2] [3].Singkatnya, tujuan prediksi multi-token di Deepseek-V3 tidak hanya meningkatkan efisiensi pelatihan tetapi juga meningkatkan kemampuan prediktif model dan generalisasi di seluruh tugas yang kompleks, menandai kemajuan substansial dibandingkan metode prediksi tradisional berikutnya.
Kutipan:[1] https://community.aws/content/2rjj1wkztsfywvfSiibhwxeqmf1/four-unique-takeaways-from-deepseek-v3?lang=en
[2] https://huggingface.co/deepseek-ai/deepseek-v3/blob/main/readme.md
[3] https://adasci.org/deepseek-v3-Explained-optimizing-eficiency-and-sale/
[4] https://arxiv.org/pdf/2412.19437.pdf
[5] https://arxiv.org/html/2412.19437v1
[6] https://www.linkedin.com/posts/ivandj_deepseek-v3-outperforms-nonnet-at-53x-ceaker-activity-7278048807307685889-xrno
[7] https://huggingface.co/deepseek-ai/deepseek-v3/blob/9672b384bf8a07c8968cf874cde35020f146fc64/readme.md
[8] https://gradientflow.com/deepseek-what-you-need-to-now/
[9] https://ithy.com/article/deepseek-v3-progress-in-language-models-huyq64wk