DeepSeek-R1 проти OpenAI O1-1217: порівняння ефективності орієнтиру

Як виконання DeepSeek-R1 на перевірці SWE Benchmark порівнюється з його виконанням на еталоні Codeforces

DeepSeek-R1 демонструє сильну продуктивність у різних орієнтирах, включаючи як перевірені SWE, так і Codeforces. Ось детальне порівняння його виконання на цих двох орієнтирах:

SWE перевірений орієнтир

На перевірці SWE еталон DeepSeek-R1 досягає оцінки 49,2%, що трохи випереджає O1-1217 OpenAI на 48,9%[2] [3]. Цей еталон оцінює міркування моделі в завданнях інженерії програмного забезпечення, зосереджуючись на таких завданнях, як перевірка коду та налагодження. У той час як DeepSeek-R1 працює добре, Claude-3,5-Sonnet-1022 трохи відбиває його з оцінкою 50,8%[3].

Codeforces Benchmark

На відміну від цього, DeepSeek-R1 перевершує еталон Codeforces, досягнувши відсотків 96,3 та рейтингу ELO 2029 [3] [4]. Це ставить його серед найкращих виконавців конкурентного кодування, уважно слідуючи OpenAI O1-1217, що веде з відсотком 96,6 та рейтингом 2061 року [3]. Benchmark Codeforces оцінює можливості кодування та алгоритмічних міркувань моделі, порівнюючи її ефективність проти учасників людини.

Порівняння

У той час як DeepSeek-R1 виступає конкурентоспроможними на обох орієнтирах, його ефективність виражена на орієнтирі Codeforces. Це говорить про те, що DeepSeek-R1 особливо вмілий у вирішенні алгоритмічних та кодуючих проблем, які є більш структурованими та потребують точних логічних міркувань. На перевірці SWE еталон, хоча він працює добре, він трохи менш домінуючий порівняно з його ефективністю на кодах. Це вказує на те, що DeepSeek-R1 може бути більше підходить для завдань, що вимагають алгоритмічних міркувань, а не тих, хто зосереджений на перевірці програмного забезпечення та налагодження.

В цілому DeepSeek-R1 демонструє універсальність для різних типів кодування та міркувань, але його сильні сторони більш очевидні в алгоритмічному вирішенні проблем.

Цитати:
[1] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-o1
[2] https://www.datacamp.com/blog/deepeek-r1
[3] https://blog.getbind.co/2025/01/23/deepseek-r1-vs-gpt-o1-vs-claude-3-5-sonnet-which-is-best-for-coding/
[4] https://techcrunch.com/2025/01/27/deepseek-claims-its-reasoning-model-beats-openais-o1-on-catect-benchmarks/
[5] https://forum.effectivealtruism.org/posts/d3ifbmyu5gte8xriz/is-deepseek-r1-already-better-than-o3-hen-inference-costs
[6] https://blog.promptlayer.com/openai-o3-vs-deepseek-r1-an-analysis-of-resoning-models/
[7] https://huggingface.co/deepseek-ai/deepseek-r1
[8] https://arxiv.org/html/2501.12948v1