Выступление DeepSeek на эталоне AIME 2024: Insights and Challenges

Как производительность DeepSeek на эталоне AIME 2024 отражает общие возможности математических рассуждений

Производительность DeepSeek на эталоне AIME 2024 дает значительную информацию о своих общих возможностях математических рассуждений. AIME - это сложный конкурс по математике для учеников старших классов, известный своими строгими и сложными проблемами. Модели DeepSeek продемонстрировали впечатляющие результаты по этому эталону, демонстрируя их способность заниматься продвинутыми математическими концепциями.

Ключевые основные моменты производительности

- Достижения точности: модели Deepseek достигли заметной точности на AIME 2024. Кроме того, модель параметров 32B от DeepSeek достигла 72,6% точности, хотя это было немного ниже, чем другая модель, O1-0912, которая набрала 74,4% [1].

- Сравнение с человеческой деятельностью: средний балл для участников человека в AIME исторически составляет от 4 до 6 правильных ответов из 15 вопросов. В то время как модели Deepseek показали сильную производительность, они все еще сталкиваются с проблемами в последовательности решения передовых математических задач, аналогично человеческим участникам [7].

-Рассуждение и решение проблем: модели Deepseek преуспевают в математических рассуждениях, используя методы, такие как пошаговые рассуждения и использование инструментов. Это очевидно в их исполнении по другим математическим критериям, где они превзошли существующие модели с открытым исходным кодом [2]. Способность обеспечить прозрачные процессы рассуждения, сродни человеческому обсуждению, повышает их образовательную ценность и надежность [5].

ограничения и проблемы

- Изменчивость производительности. Существует заметное снижение производительности, когда модели DeepSeek сталкиваются с вариантами или те, которые не включены в их обучающие данные. Например, хотя они преуспевают в конкретных данных тестовых данных, их способность обобщать в измененных версиях вопросов ограничена [4].

- Процедура насыщения: эталон AIME остается сложным для моделей искусственного интеллекта, поскольку он еще не насыщен, что означает, что модели все еще могут значительно улучшить эту задачу [7]. Это говорит о том, что, хотя DeepSeek добился успехов, есть место для дальнейшего развития в математических рассуждениях.

Будущие последствия

Производительность DeepSeek на AIME 2024 подчеркивает потенциал для моделей искусственного интеллекта, чтобы преуспеть в математических рассуждениях при сочетании опыта домена с эффективными методами обучения. Этот подход может привести к более специализированным моделям, которые достигают сильных результатов с помощью скромных вычислительных ресурсов, сместив фокус от необработанной вычислительной мощности к интеллектуальным стратегиям обучения [1]. По мере того, как ИИ продолжает развиваться, такие модели, как DeepSeek, будут играть решающую роль в расширении границ математических возможностей.

Цитаты:
[1] https://www.geekwire.com/2025/deepseeks-new-model-shows-that-ai-expertise-mater-mater-more-lan-compute-in -2025/
[2] https://github.com/deepseek-ai/deepseek-math
[3] https://www.byteplus.com/en/topic/384068
[4] https://www.reddit.com/r/localllama/comments/1ibxhwp/deepseekr1distillqwen32b_2024_aime_i_performance/
[5] https://smythos.com/ai-agents/agent-architectures/deepseek-r1/
[6] https://www.medrxiv.org/content/10.1101/2025.02.06.25321749v1.full-text
[7] https://www.vals.ai/benchmarks/aime-2025-03-11
[8] https://arxiv.org/html/2503.10573v1