DeepSeek-R1은 강화 학습 (RL) 기반 전문가 라우팅 및 다중 점 예측 (MTP)을 포함한 여러 주요 혁신을 통해 투기 디코딩을 향상시킵니다. RL 기반 전문가 라우팅이 투기 디코딩에 기여하는 방법은 다음과 같습니다.
RL 기반 전문가 라우팅
1. 동적 토큰 할당 : DeepSeek-R1은 RL을 사용하여 상황에 맞는 임베딩을 기반으로 전문가에게 토큰을 동적으로 할당합니다. 이것은 DeepSeek-V3과 같은 초기 모델에서 사용 된 정적 라우팅 방법에서 벗어난 것입니다. $$ \ pi _ {\ theta} $$로 표시되는 RL 정책은 토큰 임베드를 기준으로 Token $$ t $$에 대해 전문가를 선택할 확률을 조정합니다. $$ u_t $$ [1].
2. 최적화 목표 : RL 정책은 그룹 상대 정책 최적화 (GRPO) 프레임 워크를 사용하여 최적화됩니다. GRPO는 라우팅 엔트로피를 최소화하고 특정 전문가의 과부하를 방지하면서 누적 보상을 극대화하는 것을 목표로합니다. 이를 통해 토큰이 전문가간에 효율적으로 분산되어로드 밸런싱 및 추론 속도를 최적화합니다 [1].
3. 동적 바이어스 용어 : 라우팅 함수는 교육 피드백을 기반으로 전문가 선택을 조절하는 동적 바이어스 용어를 포함합니다. 이 적응성을 통해 모델은 시간이 지남에 따라 토큰 엑스퍼트 매핑을 개선하여 정확도를 손상시키지 않고 추론 효율을 향상시킬 수 있습니다 [1].
투기 디코딩에 미치는 영향
DeepSeek-R1에서 투기 디코딩에는 출력을 마무리하기 전에 여러 토큰을 병렬로 예측하고 검증하는 것이 포함됩니다. RL 기반 전문가 라우팅은 다음의 투기 디코딩을 향상시킵니다.
- 토큰 예측 효율 향상 : 토큰 할당 및로드 밸런싱을 동적으로 최적화함으로써 RL 기반 라우팅은 모델이 투기 디코딩의 증가 된 계산 요구를보다 효율적으로 처리 할 수 있도록합니다. 이것은 일관성이나 정확도를 희생하지 않고 더 빠른 다중 토큰의 생성을 허용한다 [1] [2].
-모델 적응성 향상 : RL 기반 라우팅의 적응 특성을 통해 DeepSeek-R1은 입력 순서의 복잡성과 컨텍스트에 따라 토큰 예측 전략을 조정할 수 있습니다. 이 적응성은 투기 디코딩 중에 고품질 출력을 유지하는 데 중요합니다. 여기서 모델은 여러 토큰을 동시에 예측하고 확인해야합니다 [1] [4].
- 대기 시간 감소 : 라우팅 프로세스를 최적화함으로써 DeepSeek-R1은 정확도를 유지하면서 텍스트를보다 빠르게 생성 할 수 있습니다. 이러한 대기 시간 감소는 특히 투기 디코딩에 특히 유리하며, 여기서 여러 토큰을 한 번에 생성하면 전체 추론 과정이 크게 높아집니다 [2] [3].
요약하면, DeepSeek-R1의 RL 기반 전문가 라우팅은 토큰 예측 효율, 모델 적응성 및 대기 시간을 향상시켜 투기 디코딩을 향상시킵니다.이 모든 것은 텍스트 생성 속도를 높이면서 고품질 출력을 유지하는 데 중요합니다.
인용 :
[1] https://aman.ai/primers/ai/deepseek-r1/
[2] https://centml.ai/resources/2x-inference-peed-on-r1
[3] https://neuralmagic.com/blog/optimizing-vllm-for-deepseek-r1/
[4] https://www.thewirechina.com/wp-content/uploads/2025/01/deepseek-r1-document.pdf
[5] https://www.reddit.com/r/localllama/comments/1i64ffn/draft_model_speculative_decoding_performance_with/
[6] https://aws.amazon.com/blogs/machine-learning/optimize-hosting-deepseek-distilled-models-with-hugging-face-tgi-amazon-sagemaker-ai/
[7] https://huggingface.co/papers?q=deepseek-1
[8] https://predibase.com/blog/predibase.com/blog/deepseek-r1-self-distillation-turbo-speculation
[9] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-r1-distilled-models-on-amazon-sagemaker-using-a-large-model-inference-container/