DeepSeek-R1 против Openai O1-1217: сравнение эталона производительности

Как производительность DeepSeek-R1 на проверке SWE сравнивается с его производительностью на эталоне CodeForces

DeepSeek-R1 демонстрирует сильную производительность по различным критериям, включая как проверенные и контрольные показатели SWE и CodeForces. Вот подробное сравнение его производительности на этих двух тестах:

SWE проверенный эталон

На проверке SWE DeepSeek-R1 достигает 49,2%, что немного опережает Operai O1-1217 на 48,9%[2] [3]. Этот эталон оценивает рассуждения модели в задачах по разработке программного обеспечения, сосредотачиваясь на таких задачах, как проверка кода и отладка. В то время как DeepSeek-R1 работает хорошо, Claude-3,5-Sonnet-1022 слегка вырастает его с оценкой 50,8%[3].

CODEFORCES BECHARK

Напротив, Deepseek-R1 превосходит контрольный эталон Codeforces, достигая процентиля 96,3 и рейтинг ELO 2029 [3] [4]. Это ставит его в число лучших исполнителей в конкурентном кодировании, близко после OpenAI O1-1217, что приводит к процентилу 96,6 и рейтингом 2061 года [3]. Конфликт CodeForces оценивает кодирование модели и алгоритмические мышления, сравнивая ее эффективность с участниками -участниками.

Сравнение

В то время как DeepSeek-R1 выступает конкурентоспособно на обоих тестах, его производительность более выражена на тесте CodeForces. Это говорит о том, что DeepSeek-R1 особенно искусен в решении алгоритмических и кодирующих задач, которые являются более структурированными и требуют точных логических рассуждений. На проверке SWE, хотя он хорошо работает, он немного менее доминирует по сравнению с его производительностью на кодовых прикладах. Это указывает на то, что DeepSeek-R1 может быть более подходящим для задач, требующих алгоритмических рассуждений, а не те, которые были сосредоточены на проверке программного обеспечения и отладке.

В целом, DeepSeek-R1 демонстрирует универсальность по различным типам задач кодирования и рассуждения, но его сильные стороны более очевидны в алгоритмическом решении проблем.

Цитаты:
[1] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-o1
[2] https://www.datacamp.com/blog/deepseek-r1
[3] https://blog.getbind.co/2025/01/23/deepseek-r1-vs-gpt-o1-vs-claude-3-5-sonnet-hich-is-best-for-coding/
[4] https://techcrunch.com/2025/01/27/deepseek-claims-its-reessing-model-beats-openais-o1-on-custer-benchmarks/
[5] https://forum.effectivealtruism.org/posts/d3ifbmyu5gte8xriz/is-deepseek-r1-already-better-tan-o3-wnere-inference-costs
[6] https://blog.promptlayer.com/openai-o3-vs-deepseek-r1-an-analysis-of-reasoning-models/
[7] https://huggingface.co/deepseek-ai/deepseek-r1
[8] https://arxiv.org/html/2501.12948v1