DeepSeek-R1対OpenAI O1-1217：ベンチマークパフォーマンスの比較

SWE検証済みのベンチマークでのDeepSeek-R1のパフォーマンスは、CodeForcesベンチマークでのパフォーマンスと比較してどのようになりますか

DeepSeek-R1は、SWE検証とCodeForcesの両方のベンチマークを含む、さまざまなベンチマークで強力なパフォーマンスを示しています。これら2つのベンチマークでのパフォーマンスの詳細な比較は次のとおりです。

swe検証済みベンチマーク

SWE検証済みのベンチマークでは、DeepSeek-R1は49.2％のスコアを達成します。これは、OpenaiのO1-1217が48.9％[2] [3]でわずかに先を行っています。このベンチマークは、コード検証やデバッグなどのタスクに焦点を当てたソフトウェアエンジニアリングタスクにおけるモデルの理由を評価します。 DeepSeek-R1はうまく機能しますが、Claude-3.5-Sonnet-1022は50.8％のスコアでわずかにエッジを伸ばします[3]。

CodeForcesベンチマーク

対照的に、DeepSeek-R1はCodeForcesベンチマークに優れており、96.3のパーセンタイルと2029 [3] [4]のELO評価を達成しました。これにより、競争力のあるコーディングのトップパフォーマーの1つになり、96.6のパーセンタイルと2061年の評価でリードしているOpenai O1-1217に密接に続きます[3]。 CodeForcesベンチマークは、そのパフォーマンスを人間の参加者と比較することにより、モデルのコーディングおよびアルゴリズムの推論機能を評価します。

＃＃比較
DeepSeek-R1は両方のベンチマークで競争力のあるパフォーマンスを発揮しますが、そのパフォーマンスはCodeForcesベンチマークでより顕著です。これは、DeepSeek-R1がアルゴリズムとコーディングの課題を解決することに特に熟達していることを示唆しており、より構造化されており、正確な論理的推論が必要です。 SWE検証済みのベンチマークでは、パフォーマンスが発生しますが、Codeforcesでのパフォーマンスと比較して、わずかに支配的ではありません。これは、DeepSeek-R1が、ソフトウェアの検証とデバッグに焦点を当てたものではなく、アルゴリズムの推論を必要とするタスクに適している可能性があることを示しています。

全体として、DeepSeek-R1は、さまざまな種類のコーディングおよび推論タスクにわたって汎用性を示していますが、その強みはアルゴリズムの問題解決においてより顕著です。

引用：
[1] https://www.prompthub.us/blog/deepseek--model-overview-and-how-it-ranks-against-openais-o1
[2] https://www.datacamp.com/blog/deepseek-r1
[3] https://blog.getbind.co/2025/01/23/deepseek-r1-vs-gpt-o1-vs-claude-3-5-sonnet-which-is-best-for-coding/
[4] https://techcrunch.com/2025/01/27/deepseek-claims-its-rasining-model-beats-openais-o1-on-c entera-benchmarks/
[5] https://forum.effectivealtruism.org/posts/d3ifbmyu5gte8xriz/is-deepseek-r1-already-better-than-o3-when-inference-costs
[6] https://blog.promptlayer.com/openai-o3-vs-deepseek-r1-an-an- of-reasoning-models/
[7] https://huggingface.co/deepseek-ai/deepseek-r1
[8] https://arxiv.org/html/2501.12948v1