DeepSeek-R1 vs Openai O1-1217 : 벤치 마크 성능 비교

SWE 검증 된 벤치 마크에서 DeepSeek-R1의 성능은 Codeforces 벤치 마크의 성능과 어떻게 비교됩니까?

DeepSeek-R1은 SWE Verified 및 Codeforces 벤치 마크를 포함하여 다양한 벤치 마크에서 강력한 성능을 보여줍니다. 다음은이 두 벤치 마크에서의 성능에 대한 자세한 비교입니다.

SWE 확인 벤치 마크

SWE 검증 된 벤치 마크에서 DeepSeek-R1은 49.2%의 점수를 얻었으며, 이는 OpenAI의 O1-1217보다 48.9%[2] [3]보다 약간 앞서 있습니다. 이 벤치 마크는 소프트웨어 엔지니어링 작업에서 모델의 추론을 평가하여 코드 검증 및 디버깅과 같은 작업에 중점을 둡니다. DeepSeek-R1은 잘 수행되는 동안 Claude-3.5-Sonnet-1022는 50.8%의 점수로 약간 가장자리를 나타냅니다 [3].

Codeforces 벤치 마크

대조적으로, DeepSeek-R1은 Codeforces 벤치 마크에 뛰어나 96.3의 백분위 수와 2029의 ELO 등급을 달성합니다 [3] [4]. 이것은 Openai O1-1217에 따라 경쟁 코딩에서 최고 공연자들 사이에 위치하며, 이는 96.6의 백분위 수와 2061 등급으로 이어집니다 [3]. Codeforces 벤치 마크는 성능을 인간 참가자와 비교하여 모델의 코딩 및 알고리즘 추론 기능을 평가합니다.

비교

DeepSeek-R1은 두 벤치 마크에서 경쟁적으로 성능을 발휘하지만 Codeforces 벤치 마크에서 성능이 더욱 두드러집니다. 이는 DeepSeek-R1이 알고리즘 및 코딩 문제를 해결하는 데 특히 능숙하며, 이는보다 체계적이며 정확한 논리적 추론이 필요하다는 것을 시사합니다. SWE 검증 된 벤치 마크에서는 성능이 잘 작동하지만 코드 포스 성능에 비해 약간 덜 지배적입니다. 이는 DeepSeek-R1이 소프트웨어 검증 및 디버깅에 중점을 둔 것보다는 알고리즘 추론이 필요한 작업에 더 적합 할 수 있음을 나타냅니다.

전반적으로, DeepSeek-R1은 다양한 유형의 코딩 및 추론 작업에서 다양성을 보여 주지만, 그 강점은 알고리즘 문제 해결에서 더 분명합니다.

인용 :
[1] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-ranks-against-openais-o1
[2] https://www.datacamp.com/blog/deepseek-r1
[3] https://blog.getbind.co/2025/01/23/deepseek-r1-vs-gpt-o1-vs-claude-3-5-sonnet whith-is-best-for-coding/
[4] https://techcrunch.com/2025/01/27/deepseek-claims-its-reasoning-model-beats-openais-o1-on-centual-benchmarks/
[5] https://forum.effectivealtruism.org/posts/d3ifbmyu5gte8xriz/is-deepseek-r1-already-better-than-o3------o3
[6] https://blog.promptlayer.com/openai-o3-vs-deepseek-r1-analysis-of-rasoning-models/
[7] https://huggingface.co/deepseek-ai/deepseek-r1
[8] https://arxiv.org/html/2501.12948v1