Продуктивність моделі DeepSeek R1 на айм -Бенземі - порівняння з OpenAI O1 та іншими моделями AI

Як продуктивність DeepSeek на AIME 1 порівнюється з іншими моделями AI

Модель R1 Deepseek демонструє сильну ефективність на американському орієнтирі з питань іспиту з математики (AIME), який є престижним змаганням з математики для учнів середньої школи. Ось детальне порівняння ефективності DeepSeek R1 з іншими моделями AI на AIME:

1. Deepseek R1 проти OpenAI O1: DeepSeek R1 показав конкурентоспроможні результати в AIME, з оцінкою 79,8% на AIME 2024, трохи випереджаючи OpenAI O1-1217 на 79,2% [9]. Однак OpenAI O1 досяг більш високого показника 96,7% в іншому порівнянні, що свідчить про мінливість показників продуктивності або версії використовуваних моделей [8]. DeepSeek R1-Zero, модель-попередник, набрав 71,0% на AIME 2024, що трохи нижче OpenAI O1-0912, але вище O1-Mini [1].

2. Порівняння з іншими моделями: У більш широкому порівнянні DeepSeek R1 добре працював, але не був найкращим бомбардиром. Наприклад, OpenAI O3 Mini зайняв перше місце з точністю 86,5% на AIME, а потім DeepSeek R1 та O1 [2]. Це говорить про те, що, хоча DeepSeek R1 є конкурентоспроможним, він не завжди може перевершити останні моделі, такі як O3 Mini.

3. Наприклад, моделі, як правило, краще працювали над старими питаннями AIME 2024 порівняно з новими питаннями AIME 2025, можливо, через включення попередніх питань у свої навчальні дані [2].

4. МОЖЛИВОСТІ МОЖЛИВОСТІ: Сильне виконання DeepSeek R1 в AIME пояснюється його розширеними можливостями міркувань, які дозволяють ефективно вирішувати складні математичні проблеми. Однак його продуктивність може знизитися, коли стикається з варіантами питань, які потребують глибших логічних міркувань [7].

Загалом, DeepSeek R1 демонструє надійну продуктивність в AIME, тісно конкуруючи з іншими топ -моделями, такими як OpenAI O1, хоча це може не завжди призвести до кожного порівняння. Її природа та економічна ефективність відкритих кодів роблять його привабливим вибором для розробників, які прагнуть використовувати вдосконалені можливості міркувань у математиці.

Цитати:
[1] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-o1
[2] https://www.vals.ai/benchmarks/aime-2025-03-11
[3] https://www.vellum.ai/blog/analysis-openai-o1-vs-deepeek-r1
[4] https://artificialanalysis.ai/models/deepeek-r1
[5] https://techcrunch.com/2025/01/27/deepseek-claims-its-reasoning-model-beats-openais-o1-on-catect-benchmarks/
[6] https://www.byteplus.com/en/topic/386612
[7] https://www.reddit.com/r/localllama/comments/1ibxhwp/deepseekr1distillqwen32b_2024_aime_i_performance/
[8] https://www.techloy.com/deepseek-r1-v-openai-o1-which-ai-model-is-better/
[9] https://www.datacamp.com/blog/deepseek-r1