Porównanie wydajności Benchmarku DeepSeek-R1: SWE weryfikowane w porównaniu z kodeksami

W jaki sposób wydajność Deepseek-R1 w zweryfikowanym punkcie odniesienia SWE porównuje

DeepSeek-R1 wykazuje dobre wyniki w różnych testach porównawczych, w tym w sprawie testów weryfikowanych przez SWE i Codeforces. Oto szczegółowe porównanie jego wydajności na tych dwóch testach porównawczych:

SWE Veryfited Benchmark

- Wydajność: DeepSeek-R1 osiągnął wynik 49,2% w sprawie testu weryfikowanego SWE, który ocenia rozumowanie w zadaniach inżynierii oprogramowania. Ten wynik jest nieco wyprzedzający 48,9% Openai O1-1217, ale nieco za Claude-3,5-Sonnet-1022 50,8% [2] [3].
- Koncentracja na zadaniach: SWE zweryfikowane Benchmark koncentruje się na zadaniach związanych z weryfikacją oprogramowania, wymagając modelu wykazania jego zdolności do rozumowania pojęć inżynierii oprogramowania.

CodeForces Benchmark

-Wydajność: W punkcie Benchmark CodeEek-R1 osiągnął percentyl 96,3 i ocenę ELO z 2029 r.. To umieszcza to w najwyższym percentylu uczestników, choć jest nieco za Openai O1-1217, który uzyskał percentyl 96,6 i ocenę ELO 2061 [2] [3].
- Koncentracja na zadaniach: Benchmark Codeforces ocenia możliwości kodowania modelu i algorytmiczne rozumowanie, porównując jego wyniki z uczestnikami konkurencyjnymi wyzwaniami kodowania.

Podsumowując, podczas gdy DeepSeek-R1 występuje konkurencyjnie na obu testach porównawczych, pokazuje silniejszą wydajność w odniesieniu Codeforces, gdzie jest bardzo wysoko wśród uczestników. Jednak w zweryfikowanym punkcie odniesienia jego wydajność jest również silna, ale nieco mniej konkurencyjna w porównaniu z innymi modelami, takimi jak Claude-3,5-Sonnet-1022. Ogólnie rzecz biorąc, Deepseek-R1 wykazuje solidne możliwości zarówno w zadaniach kodowania, jak i weryfikacji oprogramowania.

Cytaty:
[1] https://www.pompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-o1
[2] https://www.datacamp.com/blog/deepseek-r1
[3] https://blog.getbind.co/2025/01/23/deepseek-r1-vs-gppt-o1-vs-claude-3-5-sonnet-hwhich-is-best-for-coding/
[4] https://techcrunch.com/2025/01/27/deepseek-claims-its-reasoning-model-beats-openais-o1-on-eweld-benchmarks/
[5] https://forum.effectivealtruism.org/posts/d3ifbMyu5gte8xriz/is-deepseek-r1-already-better-than-o3-hen-ingeference-costs
[6] https://blog.promptlayer.com/openai-o3-vs-deepseek-r1-an-analysis-ofreasoning-models/
[7] https://huggingface.co/deepseek-ai/deepseek-r1
[8] https://arxiv.org/html/2501.12948v1