Deepseek-R1 vs OpenAI O1-1217: Comparație de performanță de referință

Cum se compară performanța DeepSeek-R1 pe referința SWE verificată cu performanțele sale pe referința CodeForces

Deepseek-R1 demonstrează o performanță puternică pe diverse referințe, inclusiv atât referințe SWE Verified, cât și CodeForces. Iată o comparație detaliată a performanței sale pe aceste două repere:

SWE Benchmark verificat

Pe referința SWE verificată, DeepSeek-R1 atinge un scor de 49,2%, ceea ce este ușor înaintea O-1-1217 de la OpenAI la 48,9%[2] [3]. Acest referință evaluează raționamentul unui model în sarcinile de inginerie software, concentrându -se pe sarcini precum verificarea codului și depanarea. În timp ce Deepseek-R1 funcționează bine, Claude-3.5-Sonnet-1022 îl margine ușor cu un scor de 50,8%[3].

CodeForces Benchmark

În schimb, Deepseek-R1 excelează pe referința CodeForces, obținând un procent de 96,3 și un rating ELO de 2029 [3] [4]. Acest lucru îl plasează printre cei mai buni interpreți în codificarea competitivă, urmând îndeaproape OpenAI O1-1217, ceea ce duce cu un procent de 96,6 și un rating de 2061 [3]. Calcula de referință CodeForces evaluează capacitățile de codificare și raționament algoritmic ale unui model prin compararea performanței sale cu participanții umani.

Comparație

În timp ce Deepseek-R1 funcționează în mod competitiv pe ambele repere, performanțele sale sunt mai pronunțate pe referința CodeForces. Acest lucru sugerează că Deepseek-R1 este deosebit de adept în rezolvarea provocărilor algoritmice și de codificare, care sunt mai structurate și necesită un raționament logic precis. Pe referința de referință verificată SWE, în timp ce se comportă bine, este puțin mai puțin dominant în comparație cu performanța sa pe codefore. Acest lucru indică faptul că Deepseek-R1 ar putea fi mai potrivit pentru sarcinile care necesită raționament algoritmic, mai degrabă decât pentru cele axate pe verificarea și depanarea software-ului.

În general, Deepseek-R1 demonstrează versatilitate pe diferite tipuri de sarcini de codificare și raționament, dar punctele sale forte sunt mai evidente în rezolvarea problemelor algoritmice.

Citări:
[1] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-O1
[2] https://www.datacamp.com/blog/deepseek-r1
[3] https://blog.getbind.co/2025/01/23/deepseek-r1-vs-gpt-o1-vs-claude-3-5-sonnet-hich-is-best-for-coding/
]
[5] https://forum.effectivealtruism.org/posts/d3ifbmyu5gte8xriz/is-deepseek-r1-already-better-than-o3-when-inference-costs
]
[7] https://huggingface.co/deepseek-AI/deepseek-r1
[8] https://arxiv.org/html/2501.12948v1