Deepseek-R1 vs OpenAI O1-1217: comparação de desempenho de referência

Como o desempenho do DeepSeek-R1 na referência verificada do SWE se compara ao seu desempenho no benchmark da Codeforces

O Deepseek-R1 demonstra um forte desempenho em vários benchmarks, incluindo os benchmarks SWE Verified e Codeforces. Aqui está uma comparação detalhada de seu desempenho nesses dois benchmarks:

SWE verificado benchmark

Na referência verificada do SWE, o Deepseek-R1 atinge uma pontuação de 49,2%, que está ligeiramente à frente do O1-1217 da OpenAI a 48,9%[2] [3]. Este benchmark avalia o raciocínio de um modelo em tarefas de engenharia de software, concentrando -se em tarefas como verificação de código e depuração. Enquanto o DeepSeek-R1 tem um bom desempenho, o Claude-3.5-Sonnet-1022 o encerra ligeiramente com uma pontuação de 50,8%[3].

Codeforces Benchmark

Por outro lado, o DeepSeek-R1 se destaca na referência do código, alcançando um percentil de 96,3 e uma classificação ELO de 2029 [3] [4]. Isso o coloca entre os melhores desempenhos em codificação competitiva, seguindo de perto o Openai O1-1217, que lidera com um percentil de 96,6 e uma classificação de 2061 [3]. O benchmark Codeforces avalia os recursos de raciocínio de codificação e algorítmico de um modelo comparando seu desempenho contra os participantes humanos.

comparação

Embora o Deepseek-R1 tenha um desempenho competitivo em ambos os benchmarks, seu desempenho é mais pronunciado no benchmark da Codeforces. Isso sugere que o Deepseek-R1 é particularmente hábil na solução de desafios algorítmicos e de codificação, que são mais estruturados e requerem um raciocínio lógico preciso. No benchmark verificado do SWE, enquanto tiver um bom desempenho, é um pouco menos dominante em comparação com seu desempenho nas forças de código. Isso indica que o DeepSeek-R1 pode ser mais adequado para tarefas que exigem raciocínio algorítmico do que aquelas focadas na verificação e depuração do software.

No geral, o Deepseek-R1 demonstra versatilidade em diferentes tipos de tarefas de codificação e raciocínio, mas seus pontos fortes são mais evidentes na solução de problemas algorítmicos.

Citações:
[1] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-dranks-against-openais-o1
[2] https://www.datacamp.com/blog/deepseek-r1
[3] https://blog.getbind.co/2025/01/23/deepseek-r1-vs-gpt-o1-vs-claude-3-5-sonnet-which-is-best-for-coding/
[4] https://techcrunch.com/2025/01/27/deepseek-claimes-its-roenasoning-model-deats-openais-o1-on-certar-skmarks/
[5] https://forum.effectivealtruism.org/postss/d3ifbmyu5gte8xriz/is-deepseek-r1-already-better-than-o3-when-inference-costs
[6] https://blog.promptlayer.com/openai-o3-vs-deepseek-r1-an-analysis-of---reonomening-models/
[7] https://huggingface.co/deepseek-ai/deepseek-r1
[8] https://arxiv.org/html/2501.12948v1