DeepSeek-R1은 SWE Verified 및 Codeforces 벤치 마크를 포함한 다양한 벤치 마크에서 강력한 성능을 보여줍니다. 다음은이 두 벤치 마크에서의 성능에 대한 자세한 비교입니다.
SWE 확인 벤치 마크
- 성능 : DeepSeek-R1은 SWE 검증 된 벤치 마크에서 49.2%의 점수를 달성하여 소프트웨어 엔지니어링 작업의 추론을 평가합니다. 이 점수는 Openai O1-1217의 48.9%보다 약간 앞서 있지만 Claude-3.5-Sonnet-1022의 50.8% [2] [3]보다 약간 뒤떨어져 있습니다.- 작업 초점 : SWE 검증 벤치 마크는 소프트웨어 검증과 관련된 작업에 중점을 두어 소프트웨어 엔지니어링 개념에 대한 추론 능력을 보여 주어야합니다.
Codeforces 벤치 마크
-성능 : Codeforces 벤치 마크에서 DeepSeek-R1은 96.3의 백분위 수 순위와 2029 년의 ELO 등급을 달성했습니다. 이는 참가자의 상위 백분위 수에 이르렀지만 OpenAI O1-1217보다 약간 뒤떨어져 있으며, 이는 96.6의 백분위 수와 2061의 ELO 등급을 기록했습니다 [2] [3].- 작업 초점 : Codeforces 벤치 마크는 경쟁력있는 코딩 문제에서 인간 참가자와 성능을 비교하여 모델의 코딩 및 알고리즘 추론 기능을 평가합니다.
요약하면, DeepSeek-R1은 두 벤치 마크에서 경쟁적으로 성과를 거두지 만 Codeforces 벤치 마크에서 더 강력한 상대 성능을 보여줍니다. 그러나 SWE 검증 된 벤치 마크에서는 Claude-3.5-Sonnet-1022와 같은 다른 모델에 비해 성능이 강하지 만 약간 경쟁력이 적습니다. 전반적으로 DeepSeek-R1은 코딩 및 소프트웨어 검증 작업 모두에서 강력한 기능을 보여줍니다.
인용 :
[1] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-ranks-against-openais-o1
[2] https://www.datacamp.com/blog/deepseek-r1
[3] https://blog.getbind.co/2025/01/23/deepseek-r1-vs-gpt-o1-vs-claude-3-5-sonnet whith-is-best-for-coding/
[4] https://techcrunch.com/2025/01/27/deepseek-claims-its-reasoning-model-beats-openais-o1-on-centual-benchmarks/
[5] https://forum.effectivealtruism.org/posts/d3ifbmyu5gte8xriz/is-deepseek-r1-already-better-than-o3------o3
[6] https://blog.promptlayer.com/openai-o3-vs-deepseek-r1-analysis-of-rasoning-models/
[7] https://huggingface.co/deepseek-ai/deepseek-r1
[8] https://arxiv.org/html/2501.12948v1