DeepSeek-V3의 MTP (Multi-Token Prediction) 목표는 전통적인 차세대 예측 패러다임을 근본적으로 변경함으로써 데이터 효율성을 크게 향상시킵니다. MTP는 즉시 다음 토큰 만 예측하는 대신 여러 미래의 토큰을 동시에 예측하도록 모델을 훈련시킵니다. 이 접근법은 훈련 신호를 조밀하게합니다. 즉, 각 입력 순서에 대해 모델이 여러 예측을하여 훈련 데이터를 더 잘 활용할 수 있습니다.
향상된 데이터 효율성
1. 밀도 훈련 신호 : 한 번에 여러 토큰을 예측함으로써 MTP는 훈련 신호의 밀도를 증가시킵니다. GPT와 같은 전통적인 모델은 일반적으로 입력 위치 당 하나의 토큰을 예측하며, 이는 시퀀스의 예측 전위를 많이 남길 수 있습니다. 대조적으로, MTP는 각 입력 시퀀스에 대해 더 많은 예측이 이루어 지도록하여 데이터 효율성을 향상시키고 학습 결과를 가속화합니다 [1] [4].
2. 개선 된 표현 계획 : MTP 목표는 모델이 데이터의 장기 종속성을 고려하여 더 풍부한 내부 표현을 개발하도록 권장합니다. MTP는 여러 미래의 토큰에 대한 예측을 동시에 요구함으로써 모델이 각 위치에서 더 많은 상황 정보를 인코딩하도록 강요합니다. 이것은 언어를 이해할 때 인간인지 과정과 더 밀접하게 일치하여 서열 내에서 맥락과 의미에 대한 더 깊은 이해를 초래한다 [1] [4].
3. 광범위한 일반화 기능 : 여러 토큰을 예측하는 능력은 확장 된 컨텍스트에 대한 추론이 필요한 다양한 작업에 걸쳐 일반화하는 모델의 능력을 향상시킵니다. 이것은 장기 계획과 다단계 추론이 필수적 인 Humaneval 및 GSM8K와 같은 복잡한 벤치 마크에서 특히 유리합니다 [1] [4].
투기 디코딩 잠재력
추론 동안, MTP 목표는 투기 디코딩을 용이하게 할 수 있으며, 여기서 여러 토큰에 대한 예측은 순차적으로 비교적으로 생성됩니다. 이 기능은 모델 배포 중에 대기 시간을 크게 줄이고 응답 시간을 높이므로 실시간 응용 프로그램에 더 효율적입니다 [1] [6].
요약하면, DeepSeek-V3의 MTP 목표는 교육 효율성을 향상시킬뿐만 아니라 복잡한 작업에 대한 모델의 예측 기능과 일반화를 향상시켜 전통적인 차세대 예측 방법에 대한 상당한 발전을 나타냅니다.
인용 :
[1] https://codingmall.com/knowledge-base/25-global/240692-how-does-deepseeks-multi-token-prediction-bjective-enhance-performance
[2] https://dirox.com/post/deepseek-v3the-open-source-ai-revolution
[3] https://blogs.novita.ai/what-are-requirements-for-deepseek-v3-inference/
[4] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-takeayways-from-deepseek-v3?lang=en
[5] https://blog.dataopslabs.com/deepseek-v3-overview-training-and-benchmark-performance
[6] https://github.com/deepseek-ai/deepseek-v3/blob/main/readme.md
[7] https://mlfrontiers.substack.com/p/understanding-deepseek-v3
[8] https://www.deeplearning.ai/the-batch/deepseek-v3-redefines-llm-performance-and-cost-efficiency/
[9] https://www.youtube.com/watch?v=jl49flojyng