Deepseek-R1 vs Openai O1-1217: Perbandingan Kinerja Benchmark

Bagaimana kinerja Deepseek-R1 pada Benchmark Terverifikasi SWE Dibandingkan dengan kinerjanya di Benchmark Codeforces

Deepseek-R1 menunjukkan kinerja yang kuat di berbagai tolok ukur, termasuk tolok ukur SWE diverifikasi dan kodi. Berikut perbandingan terperinci dari kinerjanya pada dua tolok ukur ini:

Benchmark Terverifikasi SWE

Pada patokan terverifikasi SWE, Deepseek-R1 mencapai skor 49,2%, yang sedikit di depan O1-1217 Openai pada 48,9%[2] [3]. Benchmark ini mengevaluasi penalaran model dalam tugas rekayasa perangkat lunak, dengan fokus pada tugas -tugas seperti verifikasi kode dan debugging. Sementara Deepseek-R1 berkinerja baik, Claude-3.5-Sonnet-1022 sedikit tepi dengan skor 50,8%[3].

Codeforces Benchmark

Sebaliknya, Deepseek-R1 unggul pada tolok ukur codeforces, mencapai persentil 96,3 dan peringkat ELO 2029 [3] [4]. Ini menempatkannya di antara para pemain terbaik dalam pengkodean kompetitif, dengan erat mengikuti OpenAI O1-1217, yang mengarah dengan persentil 96,6 dan peringkat 2061 [3]. Benchmark codeforces menilai model penalaran pengkodean dan algoritmik model dengan membandingkan kinerjanya dengan peserta manusia.

Perbandingan

Sementara Deepseek-R1 melakukan secara kompetitif pada kedua tolok ukur, kinerjanya lebih menonjol pada tolok ukur codeforces. Ini menunjukkan bahwa Deepseek-R1 sangat mahir dalam memecahkan tantangan algoritmik dan pengkodean, yang lebih terstruktur dan membutuhkan penalaran logis yang tepat. Pada patokan terverifikasi SWE, sementara itu berkinerja baik, itu sedikit kurang dominan dibandingkan dengan kinerjanya pada codeforces. Ini menunjukkan bahwa Deepseek-R1 mungkin lebih cocok untuk tugas yang membutuhkan penalaran algoritmik daripada yang berfokus pada verifikasi perangkat lunak dan debugging.

Secara keseluruhan, Deepseek-R1 menunjukkan keserbagunaan di berbagai jenis pengkodean dan tugas penalaran, tetapi kekuatannya lebih jelas dalam pemecahan masalah algoritmik.

Kutipan:
[1] https://www.prompthub.us/blog/deepseek-r-1-model-oveview-and-how-it-ranks-against-openais-o1
[2] https://www.datacamp.com/blog/deepseek-r1
[3] https://blog.getbind.co/2025/01/23/deepseek-r1-vs-gpt-o1-vs-claude-3-5-sonnet-which-is-best-for-coding/
[4] https://techcrunch.com/2025/01/27/deepseek-claims-its-reasoning-model-beats-openais-o1-on-cinsain-benchmarks/
[5] https://forum.effectivealtruism.org/posts/d3ifbmyu5gte8xriz/is-deepseek-r1-already-better-than-o3-when-inference-cost
[6] https://blog.promptlayer.com/openai-o3-vs-deepseek-r1-an-analysis-of-reasoning-models/
[7] https://huggingface.co/deepseek-ai/deepseek-r1
[8] https://arxiv.org/html/2501.12948v1