Deepseek-R1 vs GPT-4O-0513: Comparação de desempenho no Codeforces Benchmark

Quais são as principais diferenças no desempenho entre Deepseek-R1 e GPT-4O-0513 no benchmark da Codeforces

Ao comparar o desempenho do Deepseek-R1 e GPT-4O-0513 no benchmark do código, surgem várias diferenças importantes:

1. Código de codelas: Deepseek-R1 atinge uma classificação de forças de código de 2029, que é significativamente maior que a classificação de 759 do GPT-4O-0513. Isso indica que o Deepseek-R1 tem um desempenho muito melhor em tarefas de codificação competitivas, mostrando mais recursos algoritmicos.

2. Percentil das forças de código: Deepseek-R1 obtém um percentil de 96,3%, refletindo sua alta posição entre os participantes humanos. Por outro lado, o GPT-4O-0513 atinge apenas um percentil de 23,6%, destacando uma lacuna substancial em seus níveis relativos de desempenho [2] [5].

3. Desempenho geral: a classificação mais alta e o percentil de Deepseek-R1 sugerem que é mais hábil na solução de desafios complexos de codificação e na adaptação ao ambiente competitivo das forças de código. O GPT-4O-0513, embora capaz, não corresponde ao nível de proficiência do Deepseek-R1 nesse domínio.

4. Custo e eficiência: o GPT-4O é observado como aproximadamente 4,6 vezes mais caro que o DeepSeek-R1 para tokens de entrada e saída, o que pode ser um fator significativo para os usuários que priorizam a eficiência de custos [3].

Em resumo, o DeepSeek-R1 supera o GPT-4O-0513 na referência da Codeforces por uma margem considerável, tanto em termos de classificação quanto de percentil. Isso torna o DeepSeek-R1 uma escolha mais eficaz para tarefas que exigem fortes habilidades de codificação e raciocínio algorítmico.

Citações:
[1] https://ithy.com/article/openai-o1-vs-o3-benchmark-analysis-zy5f3bwj
[2] https://blog.getbind.co/2025/01/23/deepseek-r1-vs-gpt-o1-vs-claude-3-5-sonnet-which-is-best-for-coding/
[3] https://docsbot.ai/models/compare/deepseek-r1/gpt-4o
[4] https://www.datacamp.com/blog/deepseek-r1
[5] https://huggingface.co/deepseek-ai/deepseek-r1-distill-qwen-1.5b
[6] https://www.reddit.com/r/localllama/comments/1hr56e3/notes_on_deepseek_v3_is_it_truly_better_than/
[7] https://codeforces.com/blog/entry/133874
[8] https://www.reddit.com/r/localllama/comments/1em4nr5/the_new_gpt4o20240806_scores_the_same_as_original/