Deepseek-R1 vs OpenAI O1-1217: Benchmark Performance Jämförelse

Hur jämför prestandan för Deepseek-R1 på SWE Verified Benchmark med dess prestanda på Codeforces Benchmark

Deepseek-R1 visar stark prestanda över olika riktmärken, inklusive både SWE-verifierade och codeforces riktmärken. Här är en detaljerad jämförelse av dess prestanda på dessa två riktmärken:

SWE Verified Benchmark

På SWE-verifierade riktmärken uppnår Deepseek-R1 en poäng på 49,2%, vilket ligger något före OpenAI: s O1-1217 vid 48,9%[2] [3]. Detta riktmärke utvärderar modellens resonemang inom mjukvaruteknikuppgifter, med fokus på uppgifter som kodverifiering och felsökning. Medan Deepseek-R1 presterar bra, kantar Claude-3.5-Sonnet-1022 något med en poäng på 50,8%[3].

CodeForces Benchmark

Däremot utmärker Deepseek-R1 på Codeforces-riktmärket och uppnår en percentil på 96,3 och ett ELO-betyg på 2029 [3] [4]. Detta placerar den bland de bästa artisterna inom konkurrenskraftig kodning, nära efter OpenAI O1-1217, vilket leder med en percentil på 96,6 och ett betyg på 2061 [3]. CodeForces Benchmark utvärderar modellens kodning och algoritmiska resonemang genom att jämföra dess prestanda med mänskliga deltagare.

Jämförelse

Medan Deepseek-R1 presterar konkurrenskraftigt på båda riktmärkena, är dess prestanda mer uttalad på Codeforces-riktmärket. Detta antyder att Deepseek-R1 är särskilt skicklig på att lösa algoritmiska och kodande utmaningar, som är mer strukturerade och kräver exakt logisk resonemang. På SWE -verifierade riktmärken, medan den fungerar bra, är den något mindre dominerande jämfört med dess prestanda på Codeforces. Detta indikerar att Deepseek-R1 kan vara mer lämpad för uppgifter som kräver algoritmiska resonemang snarare än de som är inriktade på programvaruverifiering och felsökning.

Sammantaget visar Deepseek-R1 mångsidighet mellan olika typer av kodning och resonemang, men dess styrkor är tydligare i algoritmisk problemlösning.

Citeringar:
]
[2] https://www.datacamp.com/blog/deepseek-r1
]
]
]
]
[7] https://huggingface.co/deepseek-ai/deepseek-r1
[8] https://arxiv.org/html/2501.12948v1