Decodificação especulativa em Deepseek-R1: acelerando a velocidade de inferência

Como a decodificação especulativa afeta a latência geral do Deepseek-R1

A decodificação especulativa é uma técnica usada para acelerar a velocidade de inferência de grandes modelos de linguagem, como o Deepseek-R1, aproveitando um modelo de rascunho menor para gerar tokens candidatos em paralelo. Essa abordagem pode reduzir significativamente a latência, permitindo que o modelo produza vários tokens simultaneamente, que são verificados pelo modelo maior para garantir a precisão. No entanto, embora a decodificação especulativa geralmente melhore a taxa de transferência, ela pode introduzir variabilidade na latência devido ao processo de verificação.

como a decodificação especulativa funciona

1. Geração de token paralela: Um modelo de rascunho menor gera vários tokens candidatos em paralelo. Isso é mais rápido que a geração seqüencial pelo modelo maior porque utiliza a aceleração da GPU com mais eficiência [1] [3].

2 Processo de verificação: O modelo maior verifica esses tokens candidatos. Se eles correspondem à saída esperada, serão aceitos; Caso contrário, apenas os tokens incorretos são recalculados [3] [9].

Impacto na latência

- Latência média reduzida: a decodificação especulativa pode reduzir a latência média gerando tokens mais rapidamente. Isso ocorre porque o modelo de rascunho requer menos recursos e pode operar mais rápido que o modelo maior [3] [5].

- Latência variável: Embora a decodificação especulativa melhora a taxa de transferência geral, ela pode levar a latência inconsistente. Quando as previsões do modelo de rascunho estão incorretas, o modelo maior deve recalcular, o que pode causar picos na latência [3] [9].

Deepseek-r1 especificações

O Deepseek-R1 incorpora aprimoramentos como a previsão de vários toques (MTP) e a decodificação especulativa otimizada, o que melhora ainda mais a velocidade de inferência. O MTP permite que o Deepseek-R1 preveja vários tokens em paralelo, reduzindo a latência de decodificação sem comprometer a coerência [4]. A decodificação especulativa otimizada no Deepseek-R1 usa verificação de concordância probabilística, aceitando previsões com base em limiares de confiança em vez de correspondências exatas, o que reduz as taxas de rejeição e acelera a inferência [4].

No geral, a decodificação especulativa pode aumentar significativamente o desempenho do Deepseek-R1, reduzindo a latência média e melhorando a taxa de transferência, mas pode introduzir variabilidade na latência devido ao processo de verificação.

Citações:
[1] https://centml.ai/resources/2x-inference-speed-on-n1
[2] https://iaee.substack.com/p/deepseek-r1-intiitive-and-exhaustivamente
[3] https://www.theregister.com/2024/12/15/speculative_decoding/
[4] https://aman.ai/primers/ai/deepseek-r1/
[5] https://arxiv.org/html/2503.07807v1
[6] https://www.reddit.com/r/localllama/comments/1i64ffn/draft_model_speculative_decoding_performance_with/
[7] https://arxiv.org/html/2502.02789
[8] https://www.linkedin.com/postss/lameersrick_iworked-on-this-speculative-decode-version-ativity-7293321395000819712-8yvc
[9] https://predibase.com/blog/predibase.com/blog/deepseek-r1-self-distillation-turbo speculation
[10] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-r1-distilled-models-on-amazon-sagemaker-using-a-large-model-inference-container/