Perbandingan Kinerja Benchmark Deepseek-R1: SWE Verified vs Codeforces

Bagaimana kinerja Deepseek-R1 di Benchmark Terverifikasi SWE Dibandingkan dengan kinerjanya di Benchmark Codeforces

Deepseek-R1 menunjukkan kinerja yang kuat di berbagai tolok ukur, termasuk tolok ukur SWE diverifikasi dan codeforces. Berikut perbandingan terperinci dari kinerjanya pada dua tolok ukur ini:

Benchmark Terverifikasi SWE

- Kinerja: Deepseek-R1 mencapai skor 49,2% pada patokan terverifikasi SWE, yang mengevaluasi penalaran dalam tugas rekayasa perangkat lunak. Skor ini sedikit di depan OpenAI O1-1217's 48,9% tetapi sedikit di belakang Claude-3,5-sonnet-1022 50,8% [2] [3].
- Fokus tugas: Benchmark terverifikasi SWE berfokus pada tugas yang terkait dengan verifikasi perangkat lunak, yang membutuhkan model untuk menunjukkan kemampuannya untuk bernalar tentang konsep rekayasa perangkat lunak.

Codeforces Benchmark

-Kinerja: Pada tolok ukur Codeforces, Deepseek-R1 mencapai peringkat persentil 96,3 dan peringkat ELO tahun 2029. Ini menempatkannya di persentil teratas peserta, meskipun sedikit di belakang OpenAI O1-1217, yang mencetak persentil 96,6 dan peringkat ELO 2061 [2] [3].
- Tugas Fokus: Benchmark Codeforces menilai pengkodean model dan kemampuan penalaran algoritmik dengan membandingkan kinerjanya dengan peserta manusia dalam tantangan pengkodean kompetitif.

Singkatnya, sementara Deepseek-R1 melakukan secara kompetitif pada kedua tolok ukur, itu menunjukkan kinerja relatif yang lebih kuat pada tolok ukur kodeforces, di mana peringkatnya sangat tinggi di antara para peserta. Namun, pada tolok ukur terverifikasi SWE, kinerjanya juga kuat tetapi sedikit kurang kompetitif dibandingkan dengan beberapa model lain seperti Claude-3.5-Sonnet-1022. Secara keseluruhan, Deepseek-R1 menunjukkan kemampuan yang kuat dalam tugas pengkodean dan verifikasi perangkat lunak.

Kutipan:
[1] https://www.prompthub.us/blog/deepseek-r-1-model-oveview-and-how-it-ranks-against-openais-o1
[2] https://www.datacamp.com/blog/deepseek-r1
[3] https://blog.getbind.co/2025/01/23/deepseek-r1-vs-gpt-o1-vs-claude-3-5-sonnet-which-is-best-for-coding/
[4] https://techcrunch.com/2025/01/27/deepseek-claims-its-reasoning-model-beats-openais-o1-on-cinsain-benchmarks/
[5] https://forum.effectivealtruism.org/posts/d3ifbmyu5gte8xriz/is-deepseek-r1-already-better-than-o3-when-inference-cost
[6] https://blog.promptlayer.com/openai-o3-vs-deepseek-r1-an-analysis-of-reasoning-models/
[7] https://huggingface.co/deepseek-ai/deepseek-r1
[8] https://arxiv.org/html/2501.12948v1