Модель Deepseek R1 демонстрирует сильную работу на эталоне американского пригласительного экзамена по математике (AIME), который является престижным конкурсом по математике для учеников старших классов. Вот подробное сравнение производительности DeepSeek R1 с другими моделями ИИ на AIME:
1. Deepseek R1 против Openai O1: Deepseek R1 показал конкурентные результаты на AIME, со счетом 79,8% на AIME 2024, немного опережая OpenAI O1-1217 на 79,2% [9]. Тем не менее, OpenAI O1 достиг более высокого балла 96,7% в другом сравнении, что указывает на изменчивость метрик производительности или версии используемых моделей [8]. DeepSeek R1-Zero, модель предшественника, набрала 71,0% на AIME 2024, что немного ниже OpenAI O1-0912, но выше O1-Mini [1].
2. Сравнение с другими моделями: в более широком сравнении Deepseek R1 показал хорошо, но не был лучшим бомбардиром. Например, Openai O3 Mini занял первое место с точностью 86,5% на AIME, за которым последовали DeepSeek R1 и O1 [2]. Это говорит о том, что, хотя DeepSeek R1 является конкурентоспособным, он не всегда превосходит новейшие модели, такие как O3 Mini.
3. Изменчивость производительности: производительность моделей искусственного интеллекта на AIME может значительно различаться в зависимости от конкретной версии теста. Например, модели, как правило, выполнялись лучше по старым вопросам AIME 2024 по сравнению с более новыми вопросами AIME 2025, возможно, из -за включения предыдущих вопросов в их обучающие данные [2].
4. Возможности рассуждения: сильная производительность DeepSeek R1 на AIME связана с его расширенными возможностями рассуждений, которые позволяют ему эффективно решать сложные математические задачи. Тем не менее, его производительность может снизиться при столкновении с вариантами вопросов, которые требуют более глубоких логических рассуждений [7].
В целом, DeepSeek R1 демонстрирует надежную производительность на AIME, тесно конкурируя с другими лучшими моделями, такими как OpenAI O1, хотя не всегда может привести в каждом сравнении. Его природа и экономическая эффективность с открытым исходным кодом делают его привлекательным выбором для разработчиков, стремящихся использовать расширенные возможности рассуждений в математике.
Цитаты:
[1] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-o1
[2] https://www.vals.ai/benchmarks/aime-2025-03-11
[3] https://www.vellum.ai/blog/analysis-openai-o1-vs-deepseek-r1
[4] https://artificialanalysis.ai/models/deepseek-r1
[5] https://techcrunch.com/2025/01/27/deepseek-claims-its-reessing-model-beats-openais-o1-on-custer-benchmarks/
[6] https://www.byteplus.com/en/topic/386612
[7] https://www.reddit.com/r/localllama/comments/1ibxhwp/deepseekr1distillqwen32b_2024_aime_i_performance/
[8] https://www.techloy.com/deepseek-r1-v-openai-o1-wich-ai-model-is-better/
[9] https://www.datacamp.com/blog/deepseek-r1