deepseek R1モデルエイズベンチマークのパフォーマンス - Openai O1およびその他のAIモデルとの比較

eime 1でのdeepseekのパフォーマンスは、他のAIモデルとどのように比較されますか

DeepseekのR1モデルは、アメリカの招待数学試験(AIME)ベンチマークで強力なパフォーマンスを示しています。 DeepSeek R1のパフォーマンスとAIIMEの他のAIモデルの詳細な比較は次のとおりです。

1。DeepseekR1対Openai O1：Deepseek R1は、AIME 2024で79.8％のスコアで、Openai O1-1217を79.2％でわずかに上回っています[9]。ただし、OpenAI O1は別の比較で96.7％の高いスコアを達成し、使用されたモデルのパフォーマンスメトリックまたはバージョンの変動性を示しています[8]。前駆体モデルであるDeepseek R1-Zeroは、AIME 2024で71.0％を獲得しました。

2。他のモデルとの比較：より広範な比較では、DeepSeek R1はうまく機能しましたが、最高の得点者ではありませんでした。たとえば、Openai O3 Miniは、AIMEで86.5％の精度でトップの座を獲得し、その後Deepseek R1とO1 [2]が続きました。これは、DeepSeek R1は競争力があるが、O3 Miniのような最新モデルよりも常に優れているとは限らないことを示唆しています。

3.パフォーマンスの変動：AIIMEでのAIモデルのパフォーマンスは、テストの特定のバージョンによって大きく異なります。たとえば、モデルは一般に、新しいAIME 2025の質問と比較して、古いAIME 2024の質問でより良く機能しました。これは、おそらくトレーニングデータに以前の質問が含まれているためです[2]。

4。推論能力：AIIMEでのDeepseek R1の強力なパフォーマンスは、その高度な推論能力に起因しており、複雑な数学的問題に効果的に取り組むことができます。ただし、より深い論理的推論を必要とする質問のバリエーションに直面すると、そのパフォーマンスが低下する可能性があります[7]。

全体として、DeepSeek R1はAIMEで堅牢なパフォーマンスを示し、OpenAI O1のような他のトップモデルと密接に競合しますが、すべての比較で常にリードするとは限りません。そのオープンソースの性質とコスト効率は、数学の高度な推論機能を活用しようとする開発者にとって魅力的な選択となります。

引用：
[1] https://www.prompthub.us/blog/deepseek--model-overview-and-how-it-ranks-against-openais-o1
[2] https://www.vals.ai/benchmarks/aime-2025-03-11
[3] https://www.vellum.ai/blog/analysis-openai-o1-vs-deepseek-r1
[4] https://artificialanalysis.ai/models/deepseek-r1
[5] https://techcrunch.com/2025/01/27/deepseek-claims-its-rasining-model-beats-openais-o1-on-c entera-benchmarks/
[6] https://www.byteplus.com/en/topic/386612
[7] https://www.reddit.com/r/localllama/comments/1ibxhwp/deepseekr1distillqwen32b_2024_aime_i_performance/
[8] https://www.techloy.com/deepseek-r1-v-openai-o1-which-ai-model-is-better/
[9] https://www.datacamp.com/blog/deepseek-r1