Deepseek-V3'te Çoklu Tokul Tahmin ile Veri Verimliliğini Artırma

Çok Atlıca Tahmin (MTP) hedefi Deepseek-V3'te veri verimliliğini nasıl artırıyor

Deepseek-V3'teki Çoklu Tokul Tahmin (MTP) hedefi, geleneksel bir sonraki taşlı tahmin paradigmasını temel olarak değiştirerek veri verimliliğini önemli ölçüde artırır. MTP, sadece hemen bir sonraki belirteci tahmin etmek yerine, modeli aynı anda birden fazla gelecek jetonunu tahmin etmek için eğitir. Bu yaklaşım, eğitim sinyallerini yoğunlaştırır, yani her giriş dizisi için modelin birden fazla tahmin yapması ve eğitim verilerinin daha iyi kullanılmasına yol açar.

Geliştirilmiş Veri Verimliliği

1. Yoğunlaştırılmış eğitim sinyalleri: MTP aynı anda birden fazla jeton tahmin ederek eğitim sinyallerinin yoğunluğunu arttırır. GPT gibi geleneksel modeller tipik olarak, dizinin öngörücü potansiyelinin çoğunu boş bırakabilen giriş konumu başına bir jeton öngörür. Buna karşılık, MTP her bir giriş dizisi için daha fazla tahmin yapılmasını sağlar, böylece veri verimliliğini artırır ve öğrenme çıktılarını hızlandırır [1] [4].

2. Geliştirilmiş temsil planlaması: MTP hedefi, verilerdeki daha uzun vadeli bağımlılıkları göz önünde bulundurarak modeli daha zengin iç temsiller geliştirmeye teşvik eder. MTP, gelecekteki birkaç jeton için aynı anda tahminler yaparak modeli her pozisyonda daha bağlamsal bilgi kodlamaya zorlar. Bu, dili anlarken insan bilişsel süreçleriyle daha yakından uyumludur, bu da diziler içindeki bağlam ve anlamın daha derin bir şekilde anlaşılmasına neden olur [1] [4].

3. Daha geniş genelleme yetenekleri: Çoklu jetonları tahmin etme yeteneği, modelin genişletilmiş bağlamlar üzerinde akıl yürütme veya tutarlı diziler üretme gerektiren çeşitli görevlerde genelleme yeteneğini arttırır. Bu, özellikle uzun vadeli planlama ve çok adımlı muhakemenin gerekli olduğu humaneval ve gsm8K gibi karmaşık ölçütlerde faydalıdır [1] [4].

spekülatif kod çözme potansiyeli

Çıkarım sırasında, MTP hedefi spekülatif kod çözmeyi kolaylaştırabilir, burada çoklu jeton tahminleri sırayla değil paralel olarak üretilir. Bu özellik, model dağıtım sırasında gecikmeyi önemli ölçüde azaltabilir ve yanıt sürelerini hızlandırabilir, bu da gerçek zamanlı uygulamalar için daha verimli hale getirebilir [1] [6].

Özetle, Deepseek-V3'teki MTP hedefi sadece eğitim verimliliğini artırmakla kalmaz, aynı zamanda modelin öngörücü yeteneklerini ve karmaşık görevlerdeki genellemesini de artırır ve geleneksel bir sonraki vurulma tahmin yöntemlerine göre önemli bir ilerleme işaret eder.

Alıntılar:
[1] https://codingmall.com/knowledge-base/25-global/240692-does-deepseeks-multi-token-prediction-mtp-sective-enhance-purseformance
[2] https://dirox.com/post/deepseek-v3-the-open-source-ai-erolution
[3] https://blogs.novita.ai/what-are-the-wequirements-for-deepseek-v3-tiference/
[4] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-uniquewaveys-from-depseek-v3?lang=en
[5] https://blog.dataopslabs.com/deepseek-v3-oview-training- and-nchmark-pursepormance
[6] https://github.com/deepseek-ai/deepseek-v3/blob/main/readme.md
[7] https://mlfrontiers.substack.com/p/undstanding-deepseek-v3
[8] https://www.deeplearning.ai/the-batch/deepseek-v3-redefines-llm-pormance-and-cost-fortment/
[9] https://www.youtube.com/watch?v=jl49flojyng