DeepSeek-R1 сравнение производительности: SWE проверена VS CodeForces

Как производительность DeepSeek-R1 на проверке SWE сравнивается с его производительностью на эталоне CodeForces

DeepSeek-R1 демонстрирует сильную производительность в различных критериях, включая проверку SWE и CodeForces. Вот подробное сравнение его производительности на этих двух тестах:

SWE проверенный эталон

- Производительность: DeepSeek-R1 достиг 49,2% по проверке SWE, который оценивает рассуждения в задачах разработки программного обеспечения. Этот балл немного опережает OpenAI O1-1217 48,9%, но немного отстает от Claude-3,5-Sonnet-1022 50,8% [2] [3].
- Фокус задачи: проверенный эталон SWE фокусируется на задачах, связанных с проверкой программного обеспечения, требуя, чтобы модель демонстрировала свою способность рассуждать о концепциях разработки программного обеспечения.

CODEFORCES BECHARK

-Производительность: На эталоне Codeforces DeepSeek-R1 достиг процентного рейтинга 96,3 и рейтинга ELO 2029 года. Это ставит его в верхний процентиль участников, хотя он немного отстает от Openai O1-1217, который набрал процент 96,6 и оценку ELO 2061 [2] [3].
- Фокусировка задачи: эталон Codeforces оценивает возможности кодирования модели и алгоритмических рассуждений, сравнивая ее эффективность с человеческими участниками в конкурсных задачах кодирования.

Таким образом, в то время как DeepSeek-R1 выступает конкурентно на обоих тестах, он показывает более сильную относительную производительность на эталонном эталоне Codeforces, где он занимает очень высокое место среди участников. Тем не менее, на проверке SWE его производительность также является сильной, но немного менее конкурентоспособной по сравнению с некоторыми другими моделями, такими как Claude-3,5-Sonnet-1022. В целом, DeepSeek-R1 демонстрирует надежные возможности как в задачах как кодирования, так и в проверке программного обеспечения.

Цитаты:
[1] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-o1
[2] https://www.datacamp.com/blog/deepseek-r1
[3] https://blog.getbind.co/2025/01/23/deepseek-r1-vs-gpt-o1-vs-claude-3-5-sonnet-hich-is-best-for-coding/
[4] https://techcrunch.com/2025/01/27/deepseek-claims-its-reessing-model-beats-openais-o1-on-custer-benchmarks/
[5] https://forum.effectivealtruism.org/posts/d3ifbmyu5gte8xriz/is-deepseek-r1-already-better-tan-o3-wnere-inference-costs
[6] https://blog.promptlayer.com/openai-o3-vs-deepseek-r1-an-analysis-of-reasoning-models/
[7] https://huggingface.co/deepseek-ai/deepseek-r1
[8] https://arxiv.org/html/2501.12948v1