투기 디코딩은 더 작은 초안 모델을 활용하여 후보 토큰을 병렬로 생성하여 DeepSeek-R1과 같은 대형 언어 모델의 추론 속도를 가속화하는 데 사용되는 기술입니다. 이 접근법은 모델이 여러 토큰을 동시에 생성 할 수있게함으로써 대기 시간을 크게 줄일 수 있으며, 이는 더 큰 모델에 의해 확인되어 정확성을 보장합니다. 그러나 투기 디코딩은 일반적으로 처리량을 향상 시키지만 검증 프로세스로 인한 대기 시간의 변동성을 도입 할 수 있습니다.
투기 디코딩이 어떻게 작동하는지
1. 병렬 토큰 생성 : 작은 초안 모델은 여러 후보 토큰을 병렬로 생성합니다. 이것은 GPU 가속도를보다 효율적으로 활용하기 때문에 더 큰 모델에 의해 순차적 생성보다 빠릅니다 [1] [3].
2. 검증 프로세스 : 더 큰 모델은 이러한 후보 토큰을 확인합니다. 예상 출력과 일치하면 허용됩니다. 그렇지 않으면, 잘못된 토큰 만 다시 계산됩니다 [3] [9].
대기 시간에 영향을 미칩니다
- 평균 대기 시간 감소 : 투기 디코딩은 토큰을 더 빨리 생성하여 평균 대기 시간을 줄일 수 있습니다. 이는 초안 모델에 리소스가 적고 더 큰 모델보다 더 빨리 작동 할 수 있기 때문입니다 [3] [5].
- 가변 대기 시간 : 투기 디코딩은 전반적인 처리량을 향상 시키지만 일관되지 않은 대기 시간을 초래할 수 있습니다. 초안 모델의 예측이 잘못되면 더 큰 모델은 다시 계산해야하며, 이로 인해 대기 시간이 급증 할 수 있습니다 [3] [9].
DeepSeek-R1 세부 사항
DeepSeek-R1은 다중 점 예측 (MTP) 및 최적화 된 투기 디코딩과 같은 향상을 통합하여 추론 속도를 더욱 향상시킵니다. MTP는 DeepSeek-R1이 여러 토큰을 병렬로 예측하여 일관성을 손상시키지 않고 디코딩 대기 시간을 감소시킬 수 있도록합니다 [4]. DeepSeek-R1에서 최적화 된 투기 디코딩은 확률 적 합의 검사를 사용하여 정확한 일치보다는 신뢰도 임계 값을 기반으로 예측을 수락하여 거부율을 줄이고 추론을 가속화합니다 [4].
전반적으로, 투기 디코딩은 평균 대기 시간을 줄이고 처리량을 향상시킴으로써 DeepSeek-R1의 성능을 크게 향상시킬 수 있지만, 검증 프로세스로 인해 대기 시간이 소개 될 수 있습니다.
인용 :
[1] https://centml.ai/resources/2x-inference-peed-on-r1
[2] https://iaee.substack.com/p/deepseek-r1-intuitiality-and-exhaustically
[3] https://www.theeregister.com/2024/12/15/speculative_decoding/
[4] https://aman.ai/primers/ai/deepseek-r1/
[5] https://arxiv.org/html/2503.07807v1
[6] https://www.reddit.com/r/localllama/comments/1i64ffn/draft_model_speculative_decoding_performance_with/
[7] https://arxiv.org/html/2502.02789
[8] https://www.linkedin.com/posts/lamersrick_i-worked-on-feculative-code-version-version-version-version-version-version-version-version-version-version-version-version-version-7712-8yvc
[9] https://predibase.com/blog/predibase.com/blog/deepseek-r1-self-distillation-turbo-speculation
[10] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-r1-distilled-models-on-amazon-sagemaker-using-a-large-model-inference-container/