DeepSeek-R1 Benchmark Performance Sammenligning: SWE Verified vs Codeforces

Hvordan sammenligner DeepSeek-R1s ytelse på SWE-bekreftet referanseindeks med ytelsen på Codeforces Benchmark

DeepSeek-R1 demonstrerer sterk ytelse på tvers av forskjellige benchmarks, inkludert SWE verifiserte og kodeforces benchmarks. Her er en detaljert sammenligning av ytelsen på disse to referanseindeksene:

swe bekreftet benchmark

- Ytelse: DeepSeek-R1 oppnådde en poengsum på 49,2% på SWE-bekreftet benchmark, som evaluerer resonnement i programvareteknikkoppgaver. Denne poengsummen er litt foran Openai O1-1217s 48,9%, men litt bak Claude-3,5-Sonnet-1022s 50,8% [2] [3].
- Oppgavefokus: SWE -verifiserte referanseindeks fokuserer på oppgaver relatert til programvareverifisering, og krever at modellen skal demonstrere dens evne til å resonnere om programvareingeniørkonsepter.

CodeForces Benchmark

-Ytelsen: På Codeforces-referansen oppnådde DeepSeek-R1 en persentilrangering på 96,3 og en ELO-rating på 2029. Dette plasserer den i toppperslerilen av deltakerne, selv om det er litt bak Openai O1-1217, som scoret en persentil på 96,6 og en ELO-rating på 2061 [2] [3].
- Oppgavefokus: Codeforces Benchmark vurderer en modells kodings- og algoritmiske resonnementskapasitet ved å sammenligne ytelsen mot menneskelige deltakere i konkurrerende kodingsutfordringer.

Oppsummert, mens DeepSeek-R1 presterer konkurransedyktig på begge benchmarks, viser det en sterkere relativ ytelse på Codeforces-benchmark, der den rangerer veldig høyt blant deltakerne. Imidlertid, på SWE-bekreftet målestokk, er ytelsen også sterk, men litt mindre konkurransedyktig sammenlignet med noen andre modeller som Claude-3.5-Sonnet-1022. Totalt sett demonstrerer DeepSeek-R1 robuste evner i både kodings- og programvareverifiseringsoppgaver.

Sitasjoner:
[1] https://www.prompthub.us/blog/deepseek-1-model-overview-and-how-it-ranks-ainst-openais-o1
[2] https://www.datacamp.com/blog/deepseek-r1
[3] https://blog.getbind.co/2025/01/23/deepseek-r1-vs-gpt-o1-vs-claude-3-5-oNnet-which-is-best-for-coding/
[4] https://techcrunch.com/2025/01/27/deepseek-crain-its-reasoning-model-bats-openais-o1-oncain-benchmarks/
[5] https://forum.effectivealtruism.org/posts/d3ifbmyu5gte8xriz/is-depseek-r1-artsy-better-han-o3-when-inference-costs
[6] https://blog.promptlayer.com/openai- o3-vs-depseek-r1-an-analysis-of-reasoning-models/
[7] https://huggingface.co/deepseek-ai/deepseek-r1
[8] https://arxiv.org/html/2501.12948v1