DeepSeek-R1 демонстрирует сильную производительность на эталоне CodeForces, достигая процентиля 96,3 и рейтинг 2029 года. Это ставит его в число ведущих исполнителей в конкурентном кодировании, опережая модели, такие как GPT-4O и Claude 3.5 Sonnet. Для сравнения, Claude 3,5 Sonnet имеет значительно более низкий процентиль кода от 20,3 и рейтинг 717, что указывает на то, что DeepSeek-R1 более искусен при обращении с сложными проблемами кодирования и алгоритмическими рассуждениями.
В то время как Claude 3.5 Sonnet превосходит в других областях, таких как создание кратких и эффективных решений кода и объяснение сложных алгоритмов и структур данных, его производительность на кодовых прикладках не так сильна, как Deepseek-R1. Способность DeepSeek-R1 хорошо работать в конкурентных средах кодирования объясняется его крупномасштабным обучением подкреплению во время после тренировки, что расширяет его возможности рассуждений с минимальными меченными данными [3] [4].
С точки зрения общего мастерства кодирования, DeepSeek-R1 конкурентоспособен с моделями O1 OpenAI, которые также хорошо работают на контрольных показателях кодирования. Тем не менее, сильные стороны Claude 3.5 Sonnet больше лежат в своей способности выполнять нюансированные задачи кодирования и поддерживать стандарты кодирования, а не в конкурсных задачах кодирования, подобных тем, которые встречаются на кодовых залах [5].
В целом, DeepSeek-R1 является сильным соперником для задач, требующих расширенных навыков кодирования и алгоритмических рассуждений, в то время как Sonnet Claude 3.5 лучше подходит для задач, которые требуют кратких и эффективных решений для кодирования с сильными объяснительными возможностями.
Цитаты:
[1] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-o1
[2] https://www.reddit.com/r/localllama/comments/1gal0md/the_updated_claude_35_sonnet_scores_414_on/
[3] https://blog.getbind.co/2025/01/23/deepseek-r1-vs-gpt-o1-vs-claude-3-5-sonnet-hich-is-best-for-coding/
[4] https://www.datacamp.com/blog/deepseek-r1
[5] https://www.qodo.ai/question/claude-3-sonnet-coding-performance/
[6] https://www.reddit.com/r/claudeai/comments/1ikvj5w/i_compared_claude_sonnet_35_vs_deepseek_r1_on_500/
[7] https://www.reddit.com/r/localllama/comments/1i8rujw/notes_on_deepseek_r1_just_how_good_it_is_compared/
[8] https://www.anthropic.com/news/claude-3-5-sonnet