Производительность DeepSeek-R1 на Math-500 и Aime 2024

Как производительность DeepSeek-R1 на эталоне Math-500 сравнивается с ее производительностью на эталоне AIME 2024

DeepSeek-R1 демонстрирует сильную производительность в различных математических критериях, особенно на тестах Math-500 и Aime 2024. Вот подробное сравнение его производительности на этих двух тестах:

Math-500

-Производительность: DeepSeek-R1 достигает впечатляющего прохода@1 балл 97,3% на эталоне Math-500. Эта оценка указывает на то, что модель очень эффективна для решения различных математических задач высокого уровня школы, требующих подробных рассуждений [1] [4].
-Сравнение с OpenAI O1-1217: DeepSeek-R1 слегка превосходит OpenAI O1-1217, который набирает 96,4% по тому же эталону. Это говорит о том, что DeepSeek-R1 имеет небольшое преимущество в решении типов математических задач, представленных в Math-500 [4] [6].

AIME 2024 эталон

- Производительность: на эталоне AIME 2024, DeepSeek-R1 набирает 79,8%. Этот эталон оценивает расширенные многоэтапные математические рассуждения, а производительность Deepseek-R1 указывает на то, что он способен решать сложные математические задачи [1] [4].
-Сравнение с OpenAI O1-1217: DeepSeek-R1 также немного превосходит OpenAI O1-1217 на AIME 2024, который набирает 79,2%. Это предельное различие предполагает, что обе модели являются высококонкурентными в передовых задачах математических рассуждений [4] [6].

Ключевые различия между критериями

-Сложность проблемы: AIME 2024 фокусируется на более продвинутых и сложных математических проблемах по сравнению с Math-500, что включает в себя более широкий спектр проблем высокого уровня школы.
-Производительность модели: DeepSeek-R1 показывает более высокий показатель успеха на математике-500, чем на AIME 2024, что указывает на то, что он более эффективен в решении широкого спектра математических задач, а не только передовых.

В целом, DeepSeek-R1 демонстрирует сильные математические возможности рассуждения, с заметным преимуществом в решении различных математических задач, как показано в эталонном эталоне Math-500, и конкурентоспособные результаты в продвинутых задачах математических рассуждений, оцениваемых AIME 2024.

Цитаты:
[1] https://huggingface.co/deepseek-ai/deepseek-r1
[2] https://artificialanalysis.ai/models/deepseek-r1
[3.]
[4] https://www.datacamp.com/blog/deepseek-r1
[5] https://arcprize.org/blog/r1-zero-r1-results-analysis
[6] https://www.inferless.com/learn/the-ultimate-guide-to-deepseek-models
[7] https://techcrunch.com/2025/01/27/deepseek-claims-its-reessing-model-beats-openais-o1-on-cere-benchmarks/
[8] https://www.geekwire.com/2025/deepseeks-new-model-shows-that-ai-expertise-mater-mater-more-lan-compute-in -2025/