Цель мульти-токного прогнозирования (MTP) в DeepSeek-V3 значительно повышает эффективность данных за счет фундаментального изменения традиционной парадигмы прогнозирования следующего ток. Вместо того, чтобы предсказывать только непосредственное ближе, MTP обучает модель модели, чтобы предсказать множественные будущие токены одновременно. Этот подход уплощает обучающие сигналы, что означает, что для каждой входной последовательности модель делает несколько прогнозов, что приводит к лучшему использованию учебных данных.
повышенная эффективность данных
1. Уплотненные тренировочные сигналы: прогнозируя несколько токенов одновременно, MTP увеличивает плотность тренировочных сигналов. Традиционные модели, такие как GPT, обычно предсказывают один токен на входную позицию, что может оставить большую часть прогнозного потенциала последовательности неиспользованным. Напротив, MTP гарантирует, что для каждой входной последовательности производится больше прогнозов, тем самым повышая эффективность данных и ускоряя результаты обучения [1] [4].
2. Улучшенное планирование представления: цель MTP побуждает модель разработать более богатые внутренние представления, рассматривая долгосрочные зависимости в данных. Требуя прогнозов для нескольких будущих токенов одновременно, MTP заставляет модель кодировать больше контекстной информации в каждой позиции. Это более тесно связано с человеческими когнитивными процессами при понимании языка, что приводит к более глубокому пониманию контекста и значения в последовательностях [1] [4].
3. Это особенно полезно в сложных показателях, таких как Humaneval и GSM8K, где необходимы долгосрочное планирование и многоэтапные рассуждения [1] [4].
Спекулятивный потенциал декодирования
Во время вывода цель MTP может способствовать спекулятивному декодированию, где прогнозы для множественных токенов генерируются параллельно, а не последовательно. Эта возможность может значительно сократить задержку и ускорить время отклика во время развертывания модели, что делает ее более эффективным для приложений в реальном времени [1] [6].
Таким образом, цель MTP в DeepSeek-V3 не только повышает эффективность обучения, но и повышает прогнозирующие возможности модели и обобщение по сложным задачам, что отмечает существенный прогресс по сравнению с традиционными методами прогнозирования следующего ток.
Цитаты:
[1] https://codingmall.com/knowledge-base/25-global/240692-how-does-deepseeks-multi-token-pedictication-mtp-objective-enhance-performance
[2] https://dirox.com/post/deepseek-v3-the-open-source-ai-revolution
[3] https://blogs.novita.ai/what-are-the-requirements-for-deepseek-v3-inference/
[4] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-takeaways-from-deepseek-v3?lang=en
[5] https://blog.dataopslabs.com/deepseek-v3-overview training-and-benchmark-performance
[6] https://github.com/deepseek-ai/deepseek-v3/blob/main/readme.md
[7] https://mlfrontiers.substack.com/p/understanding-deepseek-v3
[8] https://www.deeplearning.ai/the-batch/deepseek-v3-redefines-llm-performance-and-cost-effiency/
[9] https://www.youtube.com/watch?v=Jl49flojyng