DeepSeek-R1 vs Openai O1-1217: Benchmark Performance Comparison

Hvordan sammenligner ydeevnen af DeepSeek-R1 på SWE-verificerede benchmark med dens ydeevne på Codeforces benchmark

DeepSeek-R1 demonstrerer stærk ydelse på tværs af forskellige benchmarks, herunder både SWE-verificerede og codforces benchmarks. Her er en detaljeret sammenligning af dens ydeevne på disse to benchmarks:

Swe verificeret benchmark

På SWE-verificeret benchmark opnår DeepSeek-R1 en score på 49,2%, hvilket ligger lidt foran Openais O1-1217 på 48,9%[2] [3]. Denne benchmark evaluerer en modelles ræsonnement inden for softwareingeniøropgaver med fokus på opgaver som kodeverifikation og fejlsøgning. Mens DeepSeek-R1 klarer sig godt, kanter Claude-3.5-Sonnet-1022 lidt med en score på 50,8%[3].

CODEFORCESS Benchmark

I modsætning hertil udmærker DeepSeek-R1 på Benchmark for codeforces og opnår en percentil på 96,3 og en ELO-rating på 2029 [3] [4]. Dette placerer det blandt de bedste kunstnere i konkurrencedygtig kodning, tæt efter Openai O1-1217, hvilket fører med en procentdel på 96,6 og en rating på 2061 [3]. Codeforces -benchmark vurderer en model's kodning og algoritmiske ræsonnementsfunktioner ved at sammenligne dens præstation med menneskelige deltagere.

Sammenligning

Mens DeepSeek-R1 fungerer konkurrencedygtigt på begge benchmarks, er dens ydeevne mere udtalt på Codeforces benchmark. Dette antyder, at DeepSeek-R1 er særlig dygtig til at løse algoritmiske og kodende udfordringer, som er mere strukturerede og kræver præcis logisk ræsonnement. På den svagt, der er verificeret benchmark, mens den klarer sig godt, er det lidt mindre dominerende sammenlignet med dens præstation på codeforces. Dette indikerer, at DeepSeek-R1 muligvis er mere velegnet til opgaver, der kræver algoritmisk ræsonnement snarere end dem, der fokuserer på softwareverifikation og fejlsøgning.

Generelt demonstrerer DeepSeek-R1 alsidighed på tværs af forskellige typer kodnings- og ræsonnementsopgaver, men dens styrker er mere tydelige i algoritmisk problemløsning.

Citater:
)
[2] https://www.datacamp.com/blog/deepseek-r1
)
)
)
)
[7] https://huggingface.co/deepseek-i/deepseek-r1
[8] https://arxiv.org/html/2501.12948v1

Hvordan sammenligner ydeevnen af ​​DeepSeek-R1 på SWE-verificerede benchmark med dens ydeevne på Codeforces benchmark

Swe verificeret benchmark

CODEFORCESS Benchmark

Sammenligning

Hvordan sammenligner ydeevnen af DeepSeek-R1 på SWE-verificerede benchmark med dens ydeevne på Codeforces benchmark