AIME 2024ベンチマークでのDeepSeek-R1のパフォーマンスは注目に値します。これは、79.8%を獲得し、79.2%を達成するOpenai O1-1217をわずかに上回っています[1]。ただし、DeepSeek-R1とGPT-4O-0513の間で特にAIME 2024ベンチマークで利用できる直接的な比較は限られています。
GPT-4Oモデルは一般に、さまざまなタスクにわたる堅牢なパフォーマンスで知られていますが、AIME 2024のGPT-4O-0513の特定の結果は、利用可能な情報には詳しく説明されていません。 GPT-4oモデルは通常、言語の理解と生成タスクで強力ですが、AIMEのような専門的な数学的推論ベンチマークでのパフォーマンスは、DeepSeek-R1などのこのようなタスクに特化したモデルと比較して異なる場合があります。
EIME 2024でのDeepseek-R1の強力なパフォーマンスは、推論能力を高めるために大規模な強化学習を組み込んだアーキテクチャに起因する可能性があります。このアプローチにより、高度なマルチステップ数学的推論[1] [3]を必要とするタスクで優れています。対照的に、GPT-4Oモデルはより一般化されており、数学的推論タスクに同じレベルの専門化を持たない可能性があります。
全体として、DeepSeek-R1はOpenAI O1-1217と比較してAIME 2024で優れたパフォーマンスを示していますが、GPT-4O-0513との直接的な比較は、利用可能なデータで明示的に提供されていません。ただし、DeepSeek-R1の専門的なトレーニングとアーキテクチャは、数学的推論ベンチマークでの強力なショーに貢献する可能性があります。
引用:
[1] https://www.datacamp.com/blog/deepseek-r1
[2] https://blog.getbind.co/2025/01/23/deepseek-r1-vs-gpt-o1-vs-claude-3-5-sonnet-which-is-best-for-coding/
[3] https://docsbot.ai/models/compare/gpt-4o-2024-05-13/deepseek-r1
[4] https://artificialanalysis.ai/models/deepseek-r1
[5] https://docsbot.ai/models/compare/deepseek-r1/gpt-4o
[6] https://llm-stats.com/models/compare/deepseek-r1-vs-gpt-4o-2024-08-06
[7] https://www.prompthub.us/blog/deepseek--model-overview-and-how-it-ranks-against-openais-o1
[8] https://docsbot.ai/models/compare/gpt-4o/deepseek-r1