투기 디코딩에서 확률 적 합의 확인

투기 디코딩에서 확률 적 합의를 점검하는 역할은 무엇입니까?

확률 적 합의 점검은 더 작은 "초안"모델에 의해 생성 된 토큰이 더 큰 기본 모델의 출력 분포와 일치하도록함으로써 투기 디코딩에 중요한 역할을합니다. 이 프로세스는 투기 디코딩으로 제공되는 효율성 이득을 활용하면서 생성 된 텍스트의 품질과 일관성을 유지하는 데 필수적입니다.

투기 디코딩의 개요

투기 디코딩은 다음 몇 개의 토큰을 순서대로 예측하기 위해 종종 투기기 또는 드래프트 모델이라고하는 작은 모델을 사용하는 것을 포함합니다. 그런 다음 이러한 예측은 더 크고 정확한 모델 (기본 모델)의 출력에 대해 검증되어 기본 모델의 분포에 따라 그럴듯하게 보장합니다 [1] [4]. 이 검증 단계는 확률 적 계약 점검이 진행되는 곳입니다.

확률 계약 점검

1. 검증 프로세스 : 초안 모델이 토큰을 생성 한 후 다음 토큰을 예측하기 위해 동일한 입력이 기본 모델에 공급됩니다. 드래프트 모델에 의해 생성 된 토큰의 확률은 기본 모델에 의해 지정된 확률과 비교됩니다. 드래프트 모델의 토큰이 기본 모델의 할당 확률보다 적거나 동일한 확률을 갖는 경우 허용됩니다. 그렇지 않으면 거부된다 [1].

2. 확률 적 정렬 : 목표는 초안 모델의 출력이 기본 모델의 분포와 정렬되도록하는 것입니다. 이 정렬은 투기 디코딩이 기본 모델에 의해 허용 될 수있는 토큰을 생성 할 수있게하므로 추론 과정의 속도를 높이면서 출력의 품질을 유지할 수 있기 때문에 중요합니다 [1] [4].

3. 효율성과 품질 트레이드 오프 : 확률 적 합의 점검은 효율성과 품질의 균형을 유지하는 데 도움이됩니다. 기본 모델에 따라 가능성이 높은 토큰을 수용함으로써 투기 디코딩은 출력 품질을 손상시키지 않고 여러 토큰을 병렬로 생성 할 수 있습니다. 이 접근법은 기존의자가 회귀 모델에 비해 대기 시간을 크게 줄여서 토큰을 순차적으로 생성합니다 [4] [5].

4. 다른 시나리오에 대한 적응 : 다중 샘플 추론 시나리오에서는 평행 생성 경로에서 합의를 활용하기 위해 확률 적 계약 점검을 조정할 수 있습니다. 구조적 패턴을 분석하고 합의 토큰 시퀀스를 집계함으로써, 투기 디코딩은 초안 수용률을 향상시키고 외부 모델이나 데이터베이스를 필요로하지 않고도 대기 시간을 줄일 수 있습니다 [2].

결론

요약하면, 확률 적 합의 점검은 투기 디코딩의 중요한 구성 요소로서 병렬 처리로 인한 효율성이 생성 된 텍스트의 품질을 손상시키지 않도록합니다. 기본 모델의 분포와 드래프트 모델 출력의 정렬을 확인함으로써 투기 디코딩은 출력 품질을 유지하면서 상당한 속도 향상을 달성 할 수 있습니다.

인용 :
[1] https://blog.codingconfessions.com/p/a-selective-survey-of-peculative-decoding
[2] https://arxiv.org/html/2503.05330v1
[3] https://arxiv.org/html/2412.10418v2
[4] https://www.linkedin.com/posts/maxbuckley_whhat-is-speculative-decoding-peculative-culative-72864287185643776-sngb
[5] https://mlops.substack.com/p/speculative-decoding-for-llm
[6] https://openreview.net/pdf?id=wsqpnemvlu
[7] https://philkrav.com/posts/speculative/
[8] https://www.reddit.com/r/localllama/comments/1iu8f7s/speculative_decoding_can_identify_broken_quants/