DeepSeek R1模型性能在AIME基准上 - 与OpenAI O1和其他AI模型进行比较

DeepSeek在AIME 1上的性能与其他AI模型相比

DeepSeek的R1模型表明，在美国邀请赛数学考试(AIME)基准测试中表现出色，这是一项享有声望的高中生数学竞赛。这是DeepSeek R1与其他AIME上的其他AI模型的详细比较：

1。DeepSeekR1与OpenAI O1：DeepSeek R1在AIME上显示出竞争成果，在AIME 2024上的得分为79.8％，略高于OpenAI O1-1217，占79.2％[9]。但是，在另一项比较中，OpenAI O1的得分较高，表明绩效指标或使用模型的版本的变化[8]。 DeepSeek R1-Zero是一种前体模型，在AIME 2024上得分为71.0％，略低于OpenAI O1-0912，但高于O1-Mini [1]。

2。与其他模型的比较：在更广泛的比较中，DeepSeek R1表现良好，但不是最高得分手。例如，Openai O3 Mini在AIME上以86.5％的精度排名第一，其次是DeepSeek R1和O1 [2]。这表明，虽然DeepSeek R1具有竞争力，但它可能并不总是胜过O3 Mini等最新型号。

3。性能变异性：AI模型在AIME上的性能可能会明显变化，具体取决于测试的特定版本。例如，与较新的Aime 2025问题相比，模型通常在较旧的AIME 2024问题上表现更好，这可能是由于培训数据中包含以前的问题[2]。

4。推理能力：DeepSeek R1在AIME上的强劲表现归因于其先进的推理能力，从而使其能够有效地解决复杂的数学问题。但是，当面对需要更深入逻辑推理的问题的变化时，其性能会下降[7]。

总体而言，DeepSeek R1在AIME上展示了出色的性能，并与其他顶级型号(如Openai O1)紧密竞争，尽管它可能并不总是在每次比较中引导。它的开源性质和成本效率使其成为希望利用数学中高级推理能力的开发人员的吸引人选择。

引用：
[1] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-in-rank-ranks-against-openais-o1
[2] https://www.vals.ai/benchmarks/aime-2025-03-11
[3] https://www.vellum.ai/blog/analisy-openai-o1-vs-deepseek-r1
[4] https://artaveranalysis.ai/models/deepseek-r1
[5] https://techcrunch.com/2025/01/27/deepseek-clairs-its-reasoning-model-beats-openais-openais-o1-on-cintern-benchmarks/
[6] https://www.byteplus.com/en/topic/386612
[7] https://www.reddit.com/r/localllama/comments/1ibxhwp/deepseekr1distillqwen32b_2024_aime_iime_ie_performance/
[8] https://www.techloy.com/deepseek-r1-v-openai-o1-which-ai-ai-model-is-better/
[9] https://www.datacamp.com/blog/deepseek-r1