Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Как производительность DeepSeek на эталоне AIME 2024 отражает общие возможности математических рассуждений


Как производительность DeepSeek на эталоне AIME 2024 отражает общие возможности математических рассуждений


Производительность DeepSeek на эталоне AIME 2024 дает значительную информацию о своих общих возможностях математических рассуждений. AIME - это сложный конкурс по математике для учеников старших классов, известный своими строгими и сложными проблемами. Модели DeepSeek продемонстрировали впечатляющие результаты по этому эталону, демонстрируя их способность заниматься продвинутыми математическими концепциями.

Ключевые основные моменты производительности

- Достижения точности: модели Deepseek достигли заметной точности на AIME 2024. Кроме того, модель параметров 32B от DeepSeek достигла 72,6% точности, хотя это было немного ниже, чем другая модель, O1-0912, которая набрала 74,4% [1].

- Сравнение с человеческой деятельностью: средний балл для участников человека в AIME исторически составляет от 4 до 6 правильных ответов из 15 вопросов. В то время как модели Deepseek показали сильную производительность, они все еще сталкиваются с проблемами в последовательности решения передовых математических задач, аналогично человеческим участникам [7].

-Рассуждение и решение проблем: модели Deepseek преуспевают в математических рассуждениях, используя методы, такие как пошаговые рассуждения и использование инструментов. Это очевидно в их исполнении по другим математическим критериям, где они превзошли существующие модели с открытым исходным кодом [2]. Способность обеспечить прозрачные процессы рассуждения, сродни человеческому обсуждению, повышает их образовательную ценность и надежность [5].

ограничения и проблемы

- Изменчивость производительности. Существует заметное снижение производительности, когда модели DeepSeek сталкиваются с вариантами или те, которые не включены в их обучающие данные. Например, хотя они преуспевают в конкретных данных тестовых данных, их способность обобщать в измененных версиях вопросов ограничена [4].

Super Savings on Servers!

Ad

- Процедура насыщения: эталон AIME остается сложным для моделей искусственного интеллекта, поскольку он еще не насыщен, что означает, что модели все еще могут значительно улучшить эту задачу [7]. Это говорит о том, что, хотя DeepSeek добился успехов, есть место для дальнейшего развития в математических рассуждениях.

Будущие последствия

Производительность DeepSeek на AIME 2024 подчеркивает потенциал для моделей искусственного интеллекта, чтобы преуспеть в математических рассуждениях при сочетании опыта домена с эффективными методами обучения. Этот подход может привести к более специализированным моделям, которые достигают сильных результатов с помощью скромных вычислительных ресурсов, сместив фокус от необработанной вычислительной мощности к интеллектуальным стратегиям обучения [1]. По мере того, как ИИ продолжает развиваться, такие модели, как DeepSeek, будут играть решающую роль в расширении границ математических возможностей.

Цитаты:
[1] https://www.geekwire.com/2025/deepseeks-new-model-shows-that-ai-expertise-mater-mater-more-lan-compute-in -2025/
[2] https://github.com/deepseek-ai/deepseek-math
[3] https://www.byteplus.com/en/topic/384068
[4] https://www.reddit.com/r/localllama/comments/1ibxhwp/deepseekr1distillqwen32b_2024_aime_i_performance/
[5] https://smythos.com/ai-agents/agent-architectures/deepseek-r1/
[6] https://www.medrxiv.org/content/10.1101/2025.02.06.25321749v1.full-text
[7] https://www.vals.ai/benchmarks/aime-2025-03-11
[8] https://arxiv.org/html/2503.10573v1