DeepSeek-R1 Benchmark Performance Comparison: SWE Verified vs Codeforces

Hvordan sammenligner DeepSeek-R1s præstation på den verificerede benchmark med dens præstation på Codeforces benchmark

DeepSeek-R1 demonstrerer stærk ydelse på tværs af forskellige benchmarks, herunder SWE-verificerede og codeforces benchmarks. Her er en detaljeret sammenligning af dens ydeevne på disse to benchmarks:

Swe verificeret benchmark

- Ydeevne: DeepSeek-R1 opnåede en score på 49,2% på SWE-verificeret benchmark, der evaluerer ræsonnement i softwareingeniøropgaver. Denne score ligger lidt foran Openai O1-1217's 48,9%, men lidt bag Claude-3.5-Sonnet-1022s 50,8% [2] [3].
- Opgavefokus: SWE -verificeret benchmark fokuserer på opgaver relateret til softwareverifikation, hvilket kræver modellen for at demonstrere sin evne til at resonnere om softwaretekniske koncepter.

CODEFORCESS Benchmark

-Ydeevne: På Benchmark for codeforces opnåede DeepSeek-R1 en percentilrangering på 96,3 og en ELO-rating på 2029. Dette placerer den i den øverste percentil af deltagerne, skønt den er lidt bag Openai O1-1217, der scorede en percentil på 96,6 og en ELO-vurdering på 2061 [2] [3].
- Opgavefokus: Codeforces -benchmark vurderer en model's kodning og algoritmiske ræsonnementsfunktioner ved at sammenligne dens præstation med menneskelige deltagere i konkurrencedygtige kodningsudfordringer.

Sammenfattende, mens Deepseek-R1 fungerer konkurrencedygtigt på begge benchmarks, viser det en stærkere relativ ydelse på Codeforces benchmark, hvor det rangerer meget højt blandt deltagerne. På SWE-verificeret benchmark er dens præstation imidlertid også stærk, men lidt mindre konkurrencedygtig sammenlignet med nogle andre modeller som Claude-3.5-Sonnet-1022. Generelt demonstrerer DeepSeek-R1 robuste kapaciteter i både kodnings- og softwareverifikationsopgaver.

Citater:
)
[2] https://www.datacamp.com/blog/deepseek-r1
)
)
)
)
[7] https://huggingface.co/deepseek-i/deepseek-r1
[8] https://arxiv.org/html/2501.12948v1