Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon W jaki sposób wydajność DeepSeek-R1 w zweryfikowanym punkcie odniesienia SWE porównuje się do jego wydajności w Benchmark


W jaki sposób wydajność DeepSeek-R1 w zweryfikowanym punkcie odniesienia SWE porównuje się do jego wydajności w Benchmark


DeepSeek-R1 wykazuje dobrą wydajność w różnych testach porównawczych, w tym zarówno odniesienia weryfikowane, jak i Code Forces. Oto szczegółowe porównanie jego wydajności na tych dwóch testach porównawczych:

SWE Veryfited Benchmark

W sprawie weryfikowanego przez SWE Deepseek-R1 osiąga wynik 49,2%, który nieco wyprzedza O1-1217 Openai na 48,9%[2] [3]. Ten punkt odniesienia ocenia rozumowanie modelu w zadaniach inżynierii oprogramowania, koncentrując się na zadaniach takich jak weryfikacja kodu i debugowanie. Podczas gdy DeepSeek-R1 działa dobrze, Claude-3,5-Sonnet-1022 nieznacznie wyciąga go z wynikiem 50,8%[3].

CodeForces Benchmark

Natomiast Deepseek-R1 wyróżnia się na poziomie Benchmark Codeforces, osiągając percentyl 96,3 i ocenę ELO z 2029 r. [3] [4]. Stawia to wśród najlepszych wyników w kodowaniu konkurencyjnym, ściśle po Openai O1-1217, co prowadzi z percentylem 96,6 i oceną 2061 [3]. Benchmark CodeForces ocenia możliwości kodowania i algorytmicznego rozumowania, porównując jego wyniki z uczestnikami ludzi.

Porównanie

Podczas gdy DeepSeek-R1 działa konkurencyjnie na obu testach porównawczych, jego wydajność jest bardziej wyraźna w odniesieniu kodeksów. Sugeruje to, że Deepseek-R1 jest szczególnie biegły w rozwiązywaniu wyzwań związanych z algorytmicznymi i kodującymi, które są bardziej uporządkowane i wymagają precyzyjnego rozumowania logicznego. W sprawdzonym punkcie odniesienia SWE, chociaż działa dobrze, jest nieco mniej dominujący w porównaniu z jego wydajnością na kodeksach. Wskazuje to, że DeepSeek-R1 może być bardziej odpowiednie do zadań wymagających rozumowania algorytmicznego, a nie tych skupionych na weryfikacji oprogramowania i debugowaniu.

Ogólnie rzecz biorąc, Deepseek-R1 wykazuje wszechstronność różnych rodzajów zadań kodowania i rozumowania, ale jego mocne strony są bardziej widoczne w rozwiązywaniu problemów algorytmicznych.

Cytaty:
[1] https://www.pompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-o1
[2] https://www.datacamp.com/blog/deepseek-r1
[3] https://blog.getbind.co/2025/01/23/deepseek-r1-vs-gppt-o1-vs-claude-3-5-sonnet-hwhich-is-best-for-coding/
[4] https://techcrunch.com/2025/01/27/deepseek-claims-its-reasoning-model-beats-openais-o1-on-eweld-benchmarks/
[5] https://forum.effectivealtruism.org/posts/d3ifbMyu5gte8xriz/is-deepseek-r1-already-better-than-o3-hen-ingeference-costs
[6] https://blog.promptlayer.com/openai-o3-vs-deepseek-r1-an-analysis-ofreasoning-models/
[7] https://huggingface.co/deepseek-ai/deepseek-r1
[8] https://arxiv.org/html/2501.12948v1