DeepSeek-R1 vs Openai O1-1217: Benchmark Performance Comparison

Hvordan sammenligner ytelsen til DeepSeek-R1 på SWE-bekreftet referanseindustrien med ytelsen på Codeforces Benchmark

DeepSeek-R1 demonstrerer sterk ytelse på tvers av forskjellige benchmarks, inkludert både SWE verifiserte og kodeforces benchmarks. Her er en detaljert sammenligning av ytelsen på disse to referanseindeksene:

swe bekreftet benchmark

På SWE-bekreftet målestokk oppnår DeepSeek-R1 en poengsum på 49,2%, som ligger litt foran Openais O1-1217 på 48,9%[2] [3]. Denne målestokken evaluerer en modells resonnement i programvareteknikkoppgaver, med fokus på oppgaver som kodeverifisering og feilsøking. Mens DeepSeek-R1 fungerer bra, kanter Claude-3,5-Sonnet-1022 litt med en score på 50,8%[3].

CodeForces Benchmark

Derimot utmerker DeepSeek-R1 seg på Codeforces-målestokken, og oppnår en persentil på 96,3 og en ELO-rating på 2029 [3] [4]. Dette plasserer det blant de beste utøverne i konkurrerende koding, og etter Openai O1-1217, som fører med en persentil på 96,6 og en rangering på 2061 [3]. Codeforces -benchmark vurderer en modells koding og algoritmiske resonnementfunksjoner ved å sammenligne ytelsen mot menneskelige deltakere.

Sammenligning

Mens DeepSeek-R1 presterer konkurransedyktig på begge benchmarks, er ytelsen mer uttalt på Codeforces-målestokken. Dette antyder at DeepSeek-R1 er spesielt flink til å løse algoritmiske og kodende utfordringer, som er mer strukturerte og krever presis logisk resonnement. På SWE -bekreftet målestokk, mens den fungerer bra, er den litt mindre dominerende sammenlignet med ytelsen på kodeforces. Dette indikerer at DeepSeek-R1 kan være mer egnet for oppgaver som krever algoritmisk resonnement i stedet for de som er fokusert på programvareverifisering og feilsøking.

Totalt sett demonstrerer DeepSeek-R1 allsidighet på tvers av forskjellige typer kodings- og resonneringsoppgaver, men styrkene er tydeligere i algoritmisk problemløsing.

Sitasjoner:
[1] https://www.prompthub.us/blog/deepseek-1-model-overview-and-how-it-ranks-ainst-openais-o1
[2] https://www.datacamp.com/blog/deepseek-r1
[3] https://blog.getbind.co/2025/01/23/deepseek-r1-vs-gpt-o1-vs-claude-3-5-oNnet-which-is-best-for-coding/
[4] https://techcrunch.com/2025/01/27/deepseek-crain-its-reasoning-model-bats-openais-o1-oncain-benchmarks/
[5] https://forum.effectivealtruism.org/posts/d3ifbmyu5gte8xriz/is-depseek-r1-artsy-better-han-o3-when-inference-costs
[6] https://blog.promptlayer.com/openai- o3-vs-depseek-r1-an-analysis-of-reasoning-models/
[7] https://huggingface.co/deepseek-ai/deepseek-r1
[8] https://arxiv.org/html/2501.12948v1