Deepseek-R1 proti OpenAI O1-1217: primerjava uspešnosti referenčne vrednosti

Kako je uspešnost Deepseek-R1 na SWE preverjenem referenčnem merilu v primerjavi z njegovo uspešnostjo na Benchmark CodeForces

Deepseek-R1 prikazuje močne zmogljivosti v različnih merilih, vključno z referenčnimi vrednostmi SWE Preverjene in CodeForces. Tu je podrobna primerjava njegovih uspešnosti na teh dveh meriloh:

SWE Preverjeno referenco

Deepseek-R1 na SWE preverjenem referenčnem vrednosti doseže oceno 49,2%, kar je nekoliko pred OpenAI-jevim O1-1217 pri 48,9%[2] [3]. To referenco ocenjuje utemeljitev modela pri nalogah programskega inženiringa in se osredotoča na naloge, kot sta preverjanje kode in odpravljanje napak. Medtem ko Deepseek-R1 deluje dobro, ga Claude-3.5-SONNET-102 2 rahlo rodi z oceno 50,8%[3].

CodeForces Benchmark

V nasprotju s tem se Deepseek-R1 odlikuje na referenčnem merilu CodeForces, saj doseže odstotek 96,3 in oceno ELO iz leta 2029 [3] [4]. To ga uvršča med vrhunske izvajalce pri tekmovalnem kodiranju, ki tesno sledi OpenAI O1-1217, kar vodi z odstotkom 96,6 in oceno 2061 [3]. Benchmark CodeForces ocenjuje zmogljivosti kodiranja in algoritmičnega sklepanja modela, če primerja njegovo uspešnost s človeškimi udeleženci.

Primerjava

Medtem ko Deepseek-R1 tekmuje konkurenčno na obeh merilih, je njegova uspešnost bolj izrazita na referenčni vrednosti CodeForces. To kaže, da je Deepseek-R1 še posebej spreten pri reševanju algoritmičnih in kodirajočih izzivov, ki so bolj strukturirani in zahtevajo natančno logično sklepanje. Na SWE Preverjenem referenčnem merilu, čeprav deluje dobro, je nekoliko manj prevladujoč v primerjavi z njeno uspešnostjo na Codeforces. To kaže, da bi bil lahko Deepseek-R1 bolj primeren za naloge, ki zahtevajo algoritmično sklepanje, ne pa tiste, ki so osredotočene na preverjanje programske opreme in odpravljanje napak.

Na splošno Deepseek-R1 prikazuje vsestranskost pri različnih vrstah kodiranja in sklepanja, vendar so njegove prednosti bolj očitne pri reševanju algoritmičnih problemov.

Navedbe:
[1] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-Openais-o1
[2] https://www.datacamp.com/blog/deepseek-r1
[3] https://blog.getbind.co/2025/01/23/deepseek-r1-vs-gpt-o1-vs-claude-3-5-sonnet-which-which-is-best-for-coding/
[4] https://techcrunch.com/2025/01/27/deepseek-calaims-its-reasoning-model-beats-openais-o1-on-cuter-veter-vechmarks/
[5] https://forum.effectivealtruism.org/posts/d3ifbmyu5gte8xriz/is-meepseek-r1-already-better- than-o3-when-inference
[6] https://blog.promplayer.com/openai-o3-vs-deepseek-r1-an-analysis-of-reasoning-models/
[7] https://huggingface.co/deepseek-ai/deepseek-r1
[8] https://arxiv.org/html/2501.12948V1