Deepseek-R1 menunjukkan kinerja yang kuat pada codeforces benchmark, mencapai persentil 96,3 dan peringkat 2029. Ini menempatkannya di antara berkinerja terbaik dalam pengkodean kompetitif, mengungguli model seperti GPT-4O dan Claude 3.5 soneta. Sebagai perbandingan, Claude 3.5 Sonnet memiliki persentil kodefors yang jauh lebih rendah dari 20,3 dan peringkat 717, menunjukkan bahwa Deepseek-R1 lebih mahir dalam menangani tantangan pengkodean yang kompleks dan tugas penalaran algoritmik.
Sementara Claude 3.5 sonnet unggul di bidang lain, seperti memproduksi solusi kode yang ringkas dan efisien dan menjelaskan algoritma dan struktur data yang kompleks, kinerjanya pada kodeforces tidak sekuat Deepseek-R1. Kemampuan Deepseek-R1 untuk berkinerja baik di lingkungan pengkodean kompetitif disebabkan oleh pembelajaran penguatan skala besar selama pasca-pelatihan, yang meningkatkan kemampuan penalaran dengan data berlabel minimal [3] [4].
Dalam hal kemahiran pengkodean secara keseluruhan, Deepseek-R1 bersaing dengan model O1 Openai, yang juga berkinerja baik pada tolok ukur pengkodean. Namun, kekuatan Claude 3.5 Sonnet lebih terletak pada kemampuannya untuk menangani tugas -tugas pengkodean yang bernuansa dan mempertahankan standar pengkodean, daripada dalam tantangan pengkodean kompetitif seperti yang ditemukan pada codeforces [5].
Secara keseluruhan, Deepseek-R1 adalah pesaing yang kuat untuk tugas-tugas yang membutuhkan keterampilan pengkodean canggih dan penalaran algoritmik, sementara Sonnet Claude 3.5 lebih cocok untuk tugas yang membutuhkan solusi pengkodean yang ringkas dan efisien dengan kemampuan penjelas yang kuat.
Kutipan:
[1] https://www.prompthub.us/blog/deepseek-r-1-model-oveview-and-how-it-ranks-against-openais-o1
[2] https://www.reddit.com/r/localllama/comments/1gal0md/the_updated_claude_35_sonnet_scores_414_on/
[3] https://blog.getbind.co/2025/01/23/deepseek-r1-vs-gpt-o1-vs-claude-3-5-sonnet-which-is-best-for-coding/
[4] https://www.datacamp.com/blog/deepseek-r1
[5] https://www.qodo.ai/question/claude-3-sonnet-coding-performance/
[6] https://www.reddit.com/r/claudeai/comments/1ikvj5w/i_compared_claude_sonnet_35_vs_deepseek_r1_on_500/
[7] https://www.reddit.com/r/localllama/comments/1i8rujw/notes_on_deepseek_r1_just_how_good_it_is_compared/
[8] https://www.anthropic.com/news/claude-3-5-sonnet