Deepseek-R1 vs Openai O1-1217: Benchmark Performans Karşılaştırması

Deepseek-R1'in SWE doğrulanmış kıyaslama üzerindeki performansı, Codeforces karşılaştırma işlemindeki performansına nasıl kıyasla

Deepseek-R1, hem SWE doğrulanmış hem de kod kuvvetleri ölçütleri de dahil olmak üzere çeşitli kriterlerde güçlü performans gösterir. İşte bu iki ölçütteki performansının ayrıntılı bir karşılaştırması:

SWE Doğrulanmış Benchmark

SWE doğrulanmış kıyaslamada, Deepseek-R1%49.2 puan elde eder, bu da Openai'nin O1-1217'sinin%48.9'unda biraz daha ileride [2] [3]. Bu kıyaslama, bir modelin yazılım mühendisliği görevlerindeki muhakemesini değerlendirir ve kod doğrulaması ve hata ayıklama gibi görevlere odaklanır. Deepseek-R1 iyi performans gösterirken, Claude-3.5-Sonnet-1022%50.8'lik bir skorla hafifçe çıkarır [3].

CodeFors Benchmark

Buna karşılık, Deepseek-R1, CodeFors kıyaslama üzerinde mükemmeldir, 96.3 yüzdelik ve 2029 ELO derecesine ulaşır [3] [4]. Bu, 96.6 yüzdelik ve 2061 derecesi ile yol açan Openai O1-1217'yi yakından takip ederek rekabetçi kodlamada en iyi performans gösterenler arasında yer almaktadır [3]. CodeForces Benchmark, performansını insan katılımcılara karşı karşılaştırarak bir modelin kodlaması ve algoritmik akıl yürütme yeteneklerini değerlendirir.

Karşılaştırmak

Deepseek-R1 her iki ölçütte de rekabetçi bir performans sergilerken, performansı CodeForces karşılaştırmasında daha belirgindir. Bu, Deepseek-R1'in özellikle daha yapılandırılmış ve hassas mantıksal akıl yürütme gerektiren algoritmik ve kodlama zorluklarını çözmede becerikli olduğunu göstermektedir. SWE doğrulanmış ölçütte, iyi performans gösterirken, CodeFores'daki performansına kıyasla biraz daha az baskındır. Bu, Deepseek-R1'in yazılım doğrulaması ve hata ayıklamaya odaklananlar yerine algoritmik akıl yürütme gerektiren görevler için daha uygun olabileceğini göstermektedir.

Genel olarak, Deepseek-R1, farklı kodlama ve akıl yürütme görevlerinde çok yönlülük gösterir, ancak güçlü yönleri algoritmik problem çözmede daha belirgindir.

Alıntılar:
[1] https://www.prompthub.us/blog/deepseek-1-model-overview-and-how-it-ragainst-openais-o1
[2] https://www.datacamp.com/blog/deepseek-r1
[3] https://blog.getbind.co/2025/01/23/deepseek-r1-vs-gpt-o1-vs-claude-3-5-stonnet-
[4] https://techcrunch.com/2025/01/27/deepseek-claims-its-wenseating-model-beats-openais-o1-on-certert-nchmarks/
[5] https://forum.effivivealtruism.org/posts/d3ifbmyu5gte8xriz/is-deepseek-r1-allready-ebetter-than-o3-when-inense- costs
[6] https://blog.promptlayer.com/openai-o3-vs-deepseek-r1-an-analysis-of-weasoning-models/
[7] https://huggingface.co/deepseek-ai/deepseek-r1
[8] https://arxiv.org/html/2501.12948v1