DeepSeek-v3의 MTP (Multi-Token Prediction) 목표는 패러다임을 전통적인 차세대 예측에서 여러 토큰을 동시에 예측하는보다 전체적인 접근법으로 이동함으로써 모델 성능을 크게 향상시킵니다. 이 혁신은 몇 가지 주요 개선으로 이어집니다.
향상된 데이터 효율성
MTP는 모델이 각 입력 순서에 대해 여러 예측을 할 수있게함으로써 훈련 신호의 밀도를 증가시킵니다. GPT와 같은 전통적인 모델은 일반적으로 한 번에 하나의 토큰만을 예측하며, 이는 시퀀스의 예측 전위를 많이 남길 수 있습니다. MTP는 여러 토큰을 예측함으로써 교육 데이터의 활용을 향상시켜 학습 결과를 향상시키고 전반적인 효율성을 향상시킵니다 [1] [2].표현 계획이 향상되었습니다
이 목표는 모델이 데이터의 장기 종속성을 고려하여 더 풍부한 내부 표현을 개발하도록 권장합니다. MTP는 한 번에 여러 미래의 토큰에 대한 예측을 요구함으로써 모델이 각 위치에서 더 많은 상황 정보를 인코딩하여 언어를 이해할 때 인간인지 과정과 더 밀접하게 정렬하도록 강요합니다. 이것은 서열 내에서 맥락과 의미에 대한 더 깊은 이해를 초래한다 [1] [3].광범위한 일반화 기능
MTP는 확장 된 컨텍스트에 대한 추론이 필요하거나 일관된 시퀀스를 생성 해야하는 다양한 작업에 걸쳐 일반화하는 모델의 기능을 향상시킵니다. 이는 장기 계획 및 다단계 추론이 필수적인 Humaneval 및 GSM8K와 같은 복잡한 벤치 마크에서 특히 유리합니다. 다가오는 다가오는 토큰을 예상 할 수있는 능력은 모델이 더 일관적이고 상황에 맞는 출력을 생성 할 수있게하여 복잡한 추론을 요구하는 작업에 대한 성능을 향상시킬 수 있습니다 [1] [4].투기 디코딩 잠재력
추론 동안, MTP는 투기 디코딩을 용이하게 할 수 있으며, 여기서 여러 토큰 예측이 순차적으로보다 동시에 생성됩니다. 이 기능은 모델 배포 중에 대기 시간을 크게 줄이고 응답 시간을 높이므로 실시간 응용 프로그램에 더 효율적입니다 [2] [3].요약하면, DeepSeek-V3의 다중 점화 예측 목표는 훈련 효율성을 향상시킬뿐만 아니라 복잡한 작업에 대한 모델의 예측 기능과 일반화를 향상시켜 전통적인 차세대 예측 방법에 대한 실질적인 발전을 나타냅니다.
인용 :[1] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-takeayways-from-deepseek-v3?lang=en
[2] https://huggingface.co/deepseek-ai/deepseek-v3/blob/main/readme.md
[3] https://adasci.org/deepseek-v3- 여기에서-옵션-효율성-스케일/
[4] https://arxiv.org/pdf/2412.19437.pdf
[5] https://arxiv.org/html/2412.19437v1
[6] https://www.linkedin.com/posts/ivandj_deepseek-v3 outperforms-sonnet-at-at-53x-cheper-activity-72780480730768589-xrno
[7] https://huggingface.co/deepseek-ai/deepseek-v3/blob/9672b384bf8a07c8968cf874cde35020f146fc64/readme.md
[8] https://gradientflow.com/deepseek-what-you-need-to-know/
[9] https://ithy.com/article/deepseek-v3-progress-monguage-models-huyq64wk