Производительность модели DeepSeek R1 на эталоне AIME - Сравнение с OpenAI O1 и другими моделями искусственного интеллекта

Как производительность DeepSeek на AIME 1 сравнивается с другими моделями искусственного интеллекта

Модель Deepseek R1 демонстрирует сильную работу на эталоне американского пригласительного экзамена по математике (AIME), который является престижным конкурсом по математике для учеников старших классов. Вот подробное сравнение производительности DeepSeek R1 с другими моделями ИИ на AIME:

1. Deepseek R1 против Openai O1: Deepseek R1 показал конкурентные результаты на AIME, со счетом 79,8% на AIME 2024, немного опережая OpenAI O1-1217 на 79,2% [9]. Тем не менее, OpenAI O1 достиг более высокого балла 96,7% в другом сравнении, что указывает на изменчивость метрик производительности или версии используемых моделей [8]. DeepSeek R1-Zero, модель предшественника, набрала 71,0% на AIME 2024, что немного ниже OpenAI O1-0912, но выше O1-Mini [1].

2. Сравнение с другими моделями: в более широком сравнении Deepseek R1 показал хорошо, но не был лучшим бомбардиром. Например, Openai O3 Mini занял первое место с точностью 86,5% на AIME, за которым последовали DeepSeek R1 и O1 [2]. Это говорит о том, что, хотя DeepSeek R1 является конкурентоспособным, он не всегда превосходит новейшие модели, такие как O3 Mini.

3. Изменчивость производительности: производительность моделей искусственного интеллекта на AIME может значительно различаться в зависимости от конкретной версии теста. Например, модели, как правило, выполнялись лучше по старым вопросам AIME 2024 по сравнению с более новыми вопросами AIME 2025, возможно, из -за включения предыдущих вопросов в их обучающие данные [2].

4. Возможности рассуждения: сильная производительность DeepSeek R1 на AIME связана с его расширенными возможностями рассуждений, которые позволяют ему эффективно решать сложные математические задачи. Тем не менее, его производительность может снизиться при столкновении с вариантами вопросов, которые требуют более глубоких логических рассуждений [7].

В целом, DeepSeek R1 демонстрирует надежную производительность на AIME, тесно конкурируя с другими лучшими моделями, такими как OpenAI O1, хотя не всегда может привести в каждом сравнении. Его природа и экономическая эффективность с открытым исходным кодом делают его привлекательным выбором для разработчиков, стремящихся использовать расширенные возможности рассуждений в математике.

Цитаты:
[1] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-o1
[2] https://www.vals.ai/benchmarks/aime-2025-03-11
[3] https://www.vellum.ai/blog/analysis-openai-o1-vs-deepseek-r1
[4] https://artificialanalysis.ai/models/deepseek-r1
[5] https://techcrunch.com/2025/01/27/deepseek-claims-its-reessing-model-beats-openais-o1-on-custer-benchmarks/
[6] https://www.byteplus.com/en/topic/386612
[7] https://www.reddit.com/r/localllama/comments/1ibxhwp/deepseekr1distillqwen32b_2024_aime_i_performance/
[8] https://www.techloy.com/deepseek-r1-v-openai-o1-wich-ai-model-is-better/
[9] https://www.datacamp.com/blog/deepseek-r1