Виступ Deepseek на еталоні AIME 2024: розуміння та виклики

Як виступ DeepSeek на еталоні AIME 2024 відображає його загальні можливості математичних міркувань

Виконання DeepSeek на еталоні AIME 2024 дає значну інформацію про загальні можливості математичних міркувань. AIME - це складне змагання з математики для учнів середньої школи, відомий своїми суворими та складними проблемами. Моделі Deepseek продемонстрували вражаючі результати на цьому еталоні, демонструючи свою здатність вирішувати передові математичні поняття.

Основні моменти продуктивності

- Досягнення точності: Моделі DeepSeek досягли помітної точності на AIME 2024. Наприклад, модель DeepSeek R1 досягла 52,5% точності точності, перевершивши інші моделі, такі як O1-Preview OpenAI, які набрали 44,6% [5]. Крім того, модель параметрів 32B від DeepSeek досягла 72,6% точності, хоча це було трохи нижче, ніж інша модель, O1-0912, яка набрала 74,4% [1].

- Порівняння з людською ефективністю: Середній показник для учасників людини в AIME історично між 4 та 6 правильними відповідями з 15 питань. Хоча моделі Deepseek показали сильну продуктивність, вони все ще стикаються з проблемами в послідовному вирішенні передових математичних проблем, подібних до учасників людини [7].

-Обґрунтування та вирішення проблем: моделі DeepSeek переважають у математичних міркуваннях, використовуючи такі методи, як покрокове міркування та використання інструментів. Це очевидно в їх виконанні на інших математичних орієнтирах, де вони перевершили існуючі моделі з відкритим кодом [2]. Здатність надавати прозорі процеси міркувань, схожі на людські роздуми, підвищує їх освітню цінність та надійність [5].

Обмеження та проблеми

- Змінність продуктивності: Існує помітне падіння продуктивності, коли моделі DeepSeek стикаються з варіантами варіантів або тих, хто безпосередньо включається до їхніх навчальних даних. Наприклад, хоча вони переважають на конкретні тестові дані, їх здатність узагальнювати змінені версії питань обмежена [4].

- Насичення орієнтирів: еталон AIME залишається складним для моделей AI, оскільки він ще не насичений, це означає, що моделі все ще можуть значно покращити це завдання [7]. Це говорить про те, що, хоча DeepSeek досягла успіхів, є місце для подальшого розвитку математичних міркувань.

майбутні наслідки

Виконання DeepSeek на AIME 2024 підкреслює потенціал для моделей AI вдосконалення математичних міркувань при поєднанні досвіду домену з ефективними методами навчання. Цей підхід може призвести до більш спеціалізованих моделей, які досягають сильних результатів за допомогою скромних обчислювальних ресурсів, переміщення фокусу від сирої обчислювальної потужності до розумних стратегій навчання [1]. По мірі того, як AI продовжує розвиватися, такі моделі, як DeepSeek, відіграватимуть вирішальну роль у просуванні меж математичних можливостей міркувань.

Цитати:
[1] https://www.geekwire.com/2025/deepseeks-new-model-shows-that-ai-expertise-might-mater-than-than-compute-in-2025/
[2] https://github.com/deepseek-ai/deepseek-math
[3] https://www.byteplus.com/en/topic/384068
[4] https://www.reddit.com/r/localllama/comments/1ibxhwp/deepseekr1distillqwen32b_2024_aime_i_performance/
[5] https://smythos.com/ai-agents/agent-architectures/deepseek-r1/
[6] https://www.medrxiv.org/content/10.1101/2025.02.06.25321749v1.full-text
[7] https://www.vals.ai/benchmarks/aime-2025-03-11
[8] https://arxiv.org/html/2503.10573v1