Виконання DeepSeek-R1 на математиці та айме 2024 орієнтири

Як виступ DeepSeek-R1 на Benchmark Math-500 порівнюється з його виконанням на еталоні AIME 2024

DeepSeek-R1 демонструє сильну ефективність у різних математичних орієнтирах, особливо на тестах Math-500 та AIME 2024. Ось детальне порівняння його виконання на цих двох орієнтирах:

Математика-500

-Продуктивність: DeepSeek-R1 досягає вражаючого пропуску@1 бал 97,3% на орієнтир Math-500. Цей бал вказує на те, що модель є високоефективною у вирішенні різноманітних математичних проблем середнього рівня, що вимагають детальних міркувань [1] [4].
-Порівняння з OpenAI O1-1217: DeepSeek-R1 злегка перевершує OpenAI O1-1217, який набрав 96,4% на тому ж еталоні. Це говорить про те, що DeepSeek-R1 має незначну перевагу у вирішенні типів математичних проблем, представлених у Math-500 [4] [6].

AIME 2024 Benchmark

- Продуктивність: На еталоні AIME 2024, DeepSeek-R1 оцінює 79,8%. Цей орієнтир оцінює передові багатоетапні математичні міркування, а продуктивність DeepSeek-R1 вказує на те, що він здатний вирішити складні математичні задачі [1] [4].
-Порівняння з OpenAI O1-1217: DeepSeek-R1 також дещо перевершує OpenAI O1-1217 на AIME 2024, який набрав 79,2%. Ця гранична різниця говорить про те, що обидві моделі є дуже конкурентоспроможними у передових завданнях математичних міркувань [4] [6].

Ключові відмінності між орієнтиром

-Складність проблеми: AIME 2024 зосереджується на більш досконалих і складних математичних проблемах порівняно з Math-500, що включає більш широкий спектр проблем на рівні шкільного рівня.
-Продуктивність моделі: DeepSeek-R1 показує більш високий рівень успішності на Math-500, ніж на AIME 2024, що вказує на те, що він є більш ефективним у вирішенні широкого спектру математичних проблем, а не просто передових.

Загалом, DeepSeek-R1 демонструє сильні математичні можливості міркування, з помітною метою вирішення різноманітних математичних проблем, як це спостерігається в орієнтирі Math-500 та конкурентних виконанням у передових завданнях математичних міркувань, як оцінювали AIME 2024.

Цитати:
[1] https://huggingface.co/deepseek-ai/deepseek-r1
[2] https://artificialanalysis.ai/models/deepeek-r1
[3] https://blog.promptlayer.com/openai-o3-vs-deepseek-r1-an-analysis-of-resoning-models/
[4] https://www.datacamp.com/blog/deepseek-r1
[5] https://arcprize.org/blog/r1-zero-r1-results-analysis
[6] https://www.inferless.com/learn/the-ultimate-guide-to-deepeek-models
[7] https://techcrunch.com/2025/01/27/deepseek-claims-its-reasoning-model-beats-openais-o1-on-catect-benchmarks/
[8] https://www.geekwire.com/2025/deepseeks-new-model-shows-that-ai-expertise-might-mater-more-than-compute-in-2025/