Deepseek-R1 Benchmark Performans Karşılaştırması: SWE Doğrulanmış VS CodeForces

Deepseek-R1'in SWE doğrulanmış kıyaslamadaki performansı, Codeforces karşılaştırması üzerindeki performansıyla nasıl karşılaştırılıyor?

Deepseek-R1, SWE Doğrulanmış ve Kodforlar kriterleri de dahil olmak üzere çeşitli kriterlerde güçlü performans gösterir. İşte bu iki ölçütteki performansının ayrıntılı bir karşılaştırması:

SWE Doğrulanmış Benchmark

- Performans: Deepseek-R1, yazılım mühendisliği görevlerindeki akıl yürütmeyi değerlendiren SWE doğrulanmış kıyaslamada% 49.2 puan aldı. Bu skor Openai O1-1217'nin% 48.9'undan biraz daha ileride ancak Claude-3.5-Sonnet-1022'nin% 50.8'inin biraz gerisinde [2] [3].
- Görev Odağı: SWE doğrulanmış kıyaslama, yazılım doğrulaması ile ilgili görevlere odaklanır ve modelin yazılım mühendisliği kavramları hakkında akıl yürütme yeteneğini göstermesini gerektirir.

CodeFors Benchmark

-Performans: CodeFors Benchmark'da, Deepseek-R1, 96.3'lük bir yüzdelik sıralaması ve 2029 ELO derecesi elde etti.
- Görev Odağı: CodeForces Benchmark, bir modelin kodlama ve algoritmik akıl yürütme yeteneklerini, rekabetçi kodlama zorluklarında insan katılımcılarına karşı karşılaştırarak değerlendirir.

Özetle, Deepseek-R1 her iki kriterde de rekabetçi bir performans sergilerken, katılımcılar arasında çok yüksek olduğu CodeFores kıyaslama üzerinde daha güçlü bir göreceli performans gösterir. Bununla birlikte, SWE doğrulanmış kıyaslamada, performansı Claude-3.5-Sonnet-1022 gibi diğer bazı modellere kıyasla güçlü ama biraz daha az rekabetçi. Genel olarak, Deepseek-R1 hem kodlama hem de yazılım doğrulama görevlerinde sağlam yetenekler gösterir.

Alıntılar:
[1] https://www.prompthub.us/blog/deepseek-1-model-overview-and-how-it-ragainst-openais-o1
[2] https://www.datacamp.com/blog/deepseek-r1
[3] https://blog.getbind.co/2025/01/23/deepseek-r1-vs-gpt-o1-vs-claude-3-5-stonnet-
[4] https://techcrunch.com/2025/01/27/deepseek-claims-its-wenseating-model-beats-openais-o1-on-certert-nchmarks/
[5] https://forum.effivivealtruism.org/posts/d3ifbmyu5gte8xriz/is-deepseek-r1-allready-ebetter-than-o3-when-inense- costs
[6] https://blog.promptlayer.com/openai-o3-vs-deepseek-r1-an-analysis-of-weasoning-models/
[7] https://huggingface.co/deepseek-ai/deepseek-r1
[8] https://arxiv.org/html/2501.12948v1