DeepSeek-R1は、特にMath-500およびAIME 2024テストで、さまざまな数学ベンチマークで強力なパフォーマンスを示しています。これら2つのベンチマークでのパフォーマンスの詳細な比較は次のとおりです。
Math-500ベンチマーク
- パフォーマンス:DeepSeek-R1は、MATH-500ベンチマークで97.3%の印象的なパス@1スコアを達成します。このスコアは、モデルが詳細な推論を必要とする多様な高校レベルの数学的問題を解決するのに非常に効果的であることを示しています[1] [4]。- Openai O1-1217との比較:Deepseek-R1はOpenai O1-1217をわずかに上回り、同じベンチマークで96.4%を獲得します。これは、DeepSeek-R1がMath-500で提示された数学的問題の種類を処理することにわずかなエッジを持っていることを示唆しています[4] [6]。
AIME 2024ベンチマーク
- パフォーマンス:AIME 2024ベンチマークでは、DeepSeek-R1は79.8%を獲得します。このベンチマークは、高度なマルチステップ数学的推論を評価し、DeepSeek-R1のパフォーマンスは、複雑な数学的問題を処理できることを示しています[1] [4]。- Openai O1-1217との比較:Deepseek-R1は、AIME 2024でOpenai O1-1217もわずかに上回り、79.2%を獲得しています。このわずかな違いは、両方のモデルが高度な数学的推論タスクで非常に競争力があることを示唆しています[4] [6]。
##ベンチマーク間の重要な違い
- 問題の複雑さ:AIME 2024は、Math-500と比較して、より高度で複雑な数学的問題に焦点を当てています。これには、より広範な高校レベルの問題が含まれます。
- モデルのパフォーマンス:DeepSeek-R1は、AIME 2024よりもMath-500の成功率が高いことを示しており、高度な問題だけでなく、広範囲の数学的問題を解決するのにより効果的であることを示しています。
全体として、DeepSeek-R1は強力な数学的推論能力を示しており、MATH-500ベンチマークで見られるさまざまな数学的問題を解決する際の顕著な優位性と、AIME 2024が評価した高度な数学的推論タスクで競争力のあるパフォーマンスを示しています。
引用:
[1] https://huggingface.co/deepseek-ai/deepseek-r1
[2] https://artificialanalysis.ai/models/deepseek-r1
[3] https://blog.promptlayer.com/openai-o3-vs-deepseek-r1-an-an-an-of-rainning-models/
[4] https://www.datacamp.com/blog/deepseek-r1
[5] https://arcprize.org/blog/r1-zero-r1-results-analysis
[6] https://www.inferless.com/learn/the- gultimate-guide-to-deepseek-models
[7] https://techcrunch.com/2025/01/27/deepseek-claims-its-rasining-model-beats-openais-o1-on-center-benchmarks/
[8] https://www.geekwire.com/2025/deepseeks-new-model-shows-that-ai-expertise-matter-more-than-compute-in-2025/