Виконання DeepSeek на еталоні AIME 2024 дає значну інформацію про загальні можливості математичних міркувань. AIME - це складне змагання з математики для учнів середньої школи, відомий своїми суворими та складними проблемами. Моделі Deepseek продемонстрували вражаючі результати на цьому еталоні, демонструючи свою здатність вирішувати передові математичні поняття.
Основні моменти продуктивності
- Досягнення точності: Моделі DeepSeek досягли помітної точності на AIME 2024. Наприклад, модель DeepSeek R1 досягла 52,5% точності точності, перевершивши інші моделі, такі як O1-Preview OpenAI, які набрали 44,6% [5]. Крім того, модель параметрів 32B від DeepSeek досягла 72,6% точності, хоча це було трохи нижче, ніж інша модель, O1-0912, яка набрала 74,4% [1].
- Порівняння з людською ефективністю: Середній показник для учасників людини в AIME історично між 4 та 6 правильними відповідями з 15 питань. Хоча моделі Deepseek показали сильну продуктивність, вони все ще стикаються з проблемами в послідовному вирішенні передових математичних проблем, подібних до учасників людини [7].
-Обґрунтування та вирішення проблем: моделі DeepSeek переважають у математичних міркуваннях, використовуючи такі методи, як покрокове міркування та використання інструментів. Це очевидно в їх виконанні на інших математичних орієнтирах, де вони перевершили існуючі моделі з відкритим кодом [2]. Здатність надавати прозорі процеси міркувань, схожі на людські роздуми, підвищує їх освітню цінність та надійність [5].
Обмеження та проблеми
- Змінність продуктивності: Існує помітне падіння продуктивності, коли моделі DeepSeek стикаються з варіантами варіантів або тих, хто безпосередньо включається до їхніх навчальних даних. Наприклад, хоча вони переважають на конкретні тестові дані, їх здатність узагальнювати змінені версії питань обмежена [4].
- Насичення орієнтирів: еталон AIME залишається складним для моделей AI, оскільки він ще не насичений, це означає, що моделі все ще можуть значно покращити це завдання [7]. Це говорить про те, що, хоча DeepSeek досягла успіхів, є місце для подальшого розвитку математичних міркувань.
майбутні наслідки
Виконання DeepSeek на AIME 2024 підкреслює потенціал для моделей AI вдосконалення математичних міркувань при поєднанні досвіду домену з ефективними методами навчання. Цей підхід може призвести до більш спеціалізованих моделей, які досягають сильних результатів за допомогою скромних обчислювальних ресурсів, переміщення фокусу від сирої обчислювальної потужності до розумних стратегій навчання [1]. По мірі того, як AI продовжує розвиватися, такі моделі, як DeepSeek, відіграватимуть вирішальну роль у просуванні меж математичних можливостей міркувань.
Цитати:
[1] https://www.geekwire.com/2025/deepseeks-new-model-shows-that-ai-expertise-might-mater-than-than-compute-in-2025/
[2] https://github.com/deepseek-ai/deepseek-math
[3] https://www.byteplus.com/en/topic/384068
[4] https://www.reddit.com/r/localllama/comments/1ibxhwp/deepseekr1distillqwen32b_2024_aime_i_performance/
[5] https://smythos.com/ai-agents/agent-architectures/deepseek-r1/
[6] https://www.medrxiv.org/content/10.1101/2025.02.06.25321749v1.full-text
[7] https://www.vals.ai/benchmarks/aime-2025-03-11
[8] https://arxiv.org/html/2503.10573v1