Primerjava uspešnosti Benchmark Deepseek-R1: SWE Preverjeno proti CodeForces

Kako je uspešnost Deepseek-R1 na SWE Preverjenem referenčnem vrednostnem merilu v primerjavi z njegovo uspešnostjo na Benchmark CodeForces

Deepseek-R1 prikazuje močne zmogljivosti v različnih merilih, vključno z merili SWE Preverjene in CodeForces. Tu je podrobna primerjava njegovih uspešnosti na teh dveh meriloh:

SWE Preverjeno referenco

- Uspešnost: Deepseek-R1 je dosegel 49,2% na SWE Preverjenem referenčnem vrednosti, ki ocenjuje sklepanje pri nalogah programskega inženiringa. Ta rezultat je nekoliko pred 48,9% OpenAI O1-1217, vendar za 50,8% Claude-3,5-Sonet-102 [2] [3].
- Osredotočenost nalog: SWE Preverjeno referenco se osredotoča na naloge, povezane s preverjanjem programske opreme, pri čemer mora model pokazati svojo sposobnost razmišljanja o konceptih programskega inženiringa.

CodeForces Benchmark

-Uspešnost: Na Benchmark CodeForces je Deepseek-R1 dosegel odstotno uvrstitev 96,3 in elo oceno leta 2029. To jo postavlja v najvišji odstotek udeležencev, čeprav je nekoliko zaostajal za OpenAI O1-1217, ki je dosegel odstotek 96,6 in elo elostacija 2061 [3].
- Osredotočenost nalog: Benchmark CodeForces ocenjuje modelne zmogljivosti kodiranja in algoritmičnega sklepanja, tako da primerja njegovo uspešnost s človeškimi udeleženci v konkurenčnih kodirajočih izzivih.

Če povzamemo, medtem ko Deepseek-R1 tekmuje konkurenčno na obeh merilih, kaže na močnejšo relativno zmogljivost na referenčnem merilu CodeForces, kjer se med udeleženci uvršča zelo visoko. Vendar pa je na SWE preverjenem referenčnem merilu tudi njegova zmogljivost močna, vendar nekoliko manj konkurenčna v primerjavi z nekaterimi drugimi modeli, kot je Claude-3.5-SONNET-1022. Na splošno Deepseek-R1 prikazuje močne zmogljivosti tako pri preverjanju kodiranja kot pri preverjanju programske opreme.

Navedbe:
[1] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-Openais-o1
[2] https://www.datacamp.com/blog/deepseek-r1
[3] https://blog.getbind.co/2025/01/23/deepseek-r1-vs-gpt-o1-vs-claude-3-5-sonnet-which-which-is-best-for-coding/
[4] https://techcrunch.com/2025/01/27/deepseek-calaims-its-reasoning-model-beats-openais-o1-on-cuter-veter-vechmarks/
[5] https://forum.effectivealtruism.org/posts/d3ifbmyu5gte8xriz/is-meepseek-r1-already-better- than-o3-when-inference
[6] https://blog.promplayer.com/openai-o3-vs-deepseek-r1-an-analysis-of-reasoning-models/
[7] https://huggingface.co/deepseek-ai/deepseek-r1
[8] https://arxiv.org/html/2501.12948V1