DeepSeek-R1は、SWE検証済みのベンチマークやCodeForcesベンチマークなど、さまざまなベンチマークで強力なパフォーマンスを示しています。これら2つのベンチマークでのパフォーマンスの詳細な比較は次のとおりです。
swe検証済みベンチマーク
- パフォーマンス:DeepSeek-R1は、SWE検証済みのベンチマークで49.2%のスコアを達成し、ソフトウェアエンジニアリングタスクの推論を評価しました。このスコアは、Openai O1-1217の48.9%をわずかに上回っていますが、Claude-3.5-Sonnet-1022の50.8%[2] [3]にわずかに遅れています。- タスクフォーカス:SWE検証済みのベンチマークは、ソフトウェア検証に関連するタスクに焦点を当てており、モデルにソフトウェアエンジニアリングの概念について推論する能力を実証する必要があります。
CodeForcesベンチマーク
- パフォーマンス:CodeForcesベンチマークでは、DeepSeek-R1は96.3のパーセンタイルランキングと2029年のエロレーティングを達成しました。- タスクフォーカス:CodeForcesベンチマークは、競合コーディングの課題で人間の参加者とそのパフォーマンスを比較することにより、モデルのコーディングおよびアルゴリズムの推論機能を評価します。
要約すると、DeepSeek-R1は両方のベンチマークで競争力のあるパフォーマンスを発揮しますが、参加者の間で非常に高くランクされているCodeForcesベンチマークでより強い相対パフォーマンスを示しています。ただし、SWE検証済みのベンチマークでは、そのパフォーマンスも強力ですが、Claude-3.5-Sonnet-1022のような他のモデルと比較して競争が少ないです。全体として、DeepSeek-R1は、コーディングおよびソフトウェア検証タスクの両方で堅牢な機能を示しています。
引用:
[1] https://www.prompthub.us/blog/deepseek--model-overview-and-how-it-ranks-against-openais-o1
[2] https://www.datacamp.com/blog/deepseek-r1
[3] https://blog.getbind.co/2025/01/23/deepseek-r1-vs-gpt-o1-vs-claude-3-5-sonnet-which-is-best-for-coding/
[4] https://techcrunch.com/2025/01/27/deepseek-claims-its-rasining-model-beats-openais-o1-on-c entera-benchmarks/
[5] https://forum.effectivealtruism.org/posts/d3ifbmyu5gte8xriz/is-deepseek-r1-already-better-than-o3-when-inference-costs
[6] https://blog.promptlayer.com/openai-o3-vs-deepseek-r1-an-an- of-reasoning-models/
[7] https://huggingface.co/deepseek-ai/deepseek-r1
[8] https://arxiv.org/html/2501.12948v1