Comparação de desempenho de referência Deepseek-R1: SWE Verificado vs Code Forces

Como o desempenho do Deepseek-R1 no referência verificado do SWE se compara ao seu desempenho no benchmark do código do código

O Deepseek-R1 demonstra um forte desempenho em vários benchmarks, incluindo os benchmarks SWE Verified e Codeforces. Aqui está uma comparação detalhada de seu desempenho nesses dois benchmarks:

SWE verificado benchmark

- Desempenho: Deepseek-R1 alcançou uma pontuação de 49,2% na referência verificada do SWE, que avalia o raciocínio nas tarefas de engenharia de software. Essa pontuação está ligeiramente à frente dos 48,9% do OpenAI O1-1217, mas ligeiramente atrás de 50,8% de Claude-3.5 Sonnet-1022 [2] [3].
- Foco na tarefa: o referência SWE Verificado se concentra em tarefas relacionadas à verificação de software, exigindo que o modelo demonstre sua capacidade de raciocinar sobre os conceitos de engenharia de software.

Codeforces Benchmark

-Desempenho: na referência da Codeforces, o DeepSeek-R1 alcançou uma classificação percentual de 96,3 e uma classificação ELO de 2029. Isso o coloca no percentil superior de participantes, embora esteja ligeiramente atrás do OpenAI O1-1217, que obteve um percentil de 96,6 e uma classificação ELO de 2061 [2] [2].
- Foco na tarefa: o benchmark da Codeforces avalia os recursos de codificação e raciocínio algorítmicos de um modelo comparando seu desempenho contra os participantes humanos em desafios de codificação competitiva.

Em resumo, embora o DeepSeek-R1 tenha um desempenho competitivo em ambos os benchmarks, ele mostra um desempenho relativo mais forte no benchmark da Codeforces, onde é muito alto entre os participantes. No entanto, na referência verificada do SWE, seu desempenho também é forte, mas um pouco menos competitivo em comparação com outros modelos, como Claude-3.5 Sonnet-1022. No geral, o Deepseek-R1 demonstra recursos robustos nas tarefas de codificação e verificação de software.

Citações:
[1] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-dranks-against-openais-o1
[2] https://www.datacamp.com/blog/deepseek-r1
[3] https://blog.getbind.co/2025/01/23/deepseek-r1-vs-gpt-o1-vs-claude-3-5-sonnet-which-is-best-for-coding/
[4] https://techcrunch.com/2025/01/27/deepseek-claimes-its-roenasoning-model-deats-openais-o1-on-certar-skmarks/
[5] https://forum.effectivealtruism.org/postss/d3ifbmyu5gte8xriz/is-deepseek-r1-already-better-than-o3-when-inference-costs
[6] https://blog.promptlayer.com/openai-o3-vs-deepseek-r1-an-analysis-of---reonomening-models/
[7] https://huggingface.co/deepseek-ai/deepseek-r1
[8] https://arxiv.org/html/2501.12948v1