Порівняння продуктивності DeepSeek-R1

Як продуктивність DeepSeek-R1 на перевірці SWE Benchmark порівнюється з його виконанням на Benchmark Codeforces

DeepSeek-R1 демонструє сильну продуктивність у різних орієнтирах, включаючи орієнтири перевірених SWE та Codeforces. Ось детальне порівняння його виконання на цих двох орієнтирах:

SWE перевірений орієнтир

- Продуктивність: DeepSeek-R1 досяг оцінки 49,2% на перевіреному SWE еталон, який оцінює міркування в завданнях інженерії програмного забезпечення. Цей бал трохи випереджає 48,9% OpenAI O1-1217, але трохи відстає від Клода-3,5-Сонне-1022 50,8% [2] [3].
- Фокус завдань: перевірений SWE еталон орієнтований на завдання, пов'язані з підтвердженням програмного забезпечення, вимагаючи від моделі продемонструвати свою здатність міркувати про концепції інженерії програмного забезпечення.

Codeforces Benchmark

-Продуктивність: На еталоні Codeforces Deepseek-R1 досяг відсоткового рейтингу 96,3 та рейтингу ELO 2029 року. Це розміщує його у верхньому перцентилі учасників, хоча він незначно відстає від OpenAI O1-1217, який набрав відсоток 96,6 та рейтингу ELO 2061 [2] [3].
- Фокус завдань: Benchmark Codeforces оцінює можливості кодування та алгоритмічних міркувань моделі, порівнюючи її ефективність проти учасників людини у конкурентних викликах кодування.

Підсумовуючи це, хоча DeepSeek-R1 виступає конкурентно на обох орієнтирах, він демонструє більш сильну відносну ефективність на орієнтирі Codeforces, де він займає дуже високу серед учасників. Однак, на перевірці SWE, його продуктивність також є сильною, але трохи менш конкурентоспроможною порівняно з деякими іншими моделями, такими як Claude-3,5-Sonnet-1022. Загалом, DeepSeek-R1 демонструє надійні можливості як у завданнях кодування, так і в завданнях перевірки програмного забезпечення.

Цитати:
[1] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-o1
[2] https://www.datacamp.com/blog/deepeek-r1
[3] https://blog.getbind.co/2025/01/23/deepseek-r1-vs-gpt-o1-vs-claude-3-5-sonnet-which-is-best-for-coding/
[4] https://techcrunch.com/2025/01/27/deepseek-claims-its-reasoning-model-beats-openais-o1-on-catect-benchmarks/
[5] https://forum.effectivealtruism.org/posts/d3ifbmyu5gte8xriz/is-deepseek-r1-already-better-than-o3-hen-inference-costs
[6] https://blog.promptlayer.com/openai-o3-vs-deepseek-r1-an-analysis-of-resoning-models/
[7] https://huggingface.co/deepseek-ai/deepseek-r1
[8] https://arxiv.org/html/2501.12948v1