„Deepseek-R1“ etalonas Veiklos palyginimas: SWE patikrinta VS Codeforces

Kaip „Deepseeek-R1“ pasirodymas SWE patikrintas etalonas, palyginti su jo našumu „Codeforces“ etalone

„Deepseek-R1“ demonstruoja stiprų rezultatą įvairiuose etalonuose, įskaitant SWE patikrintus ir „Codeforces“ etalonus. Čia pateiktas išsamus jo našumo palyginimas su šiais dviem etalonais:

SWE patikrintas etalonas

- Našumas: „Deepseek-R1“ pasiekė 49,2% balą SWE patikrintame etalone, kuris įvertina pagrįstumą programinės įrangos inžinerijos užduotyse. Šis balas šiek tiek lenkia „Openai O1-1217“ 48,9%, tačiau šiek tiek atsilieka nuo Claude-3,5-Sonnet-1022 50,8% [2] [3].
- Dėmesys užduotims: SWE patikrintas etalonas sutelktas į užduotis, susijusias su programinės įrangos tikrinimu, reikalaujant, kad modelis parodytų jo sugebėjimą pagrįsti programinės įrangos inžinerijos koncepcijas.

„Codeforces“ etalonas

-Našumas: „Codeforces“ etalone „Deepseek-R1“ pasiekė procentilio reitingą 96,3, o ELO reitingas buvo 2029 m. Tai sudaro aukščiausią dalyvių procentilį, nors jis šiek tiek atsilieka nuo O1-1217, kuris įvertino 96,6 ir ELO reitingą [2] [3].
- Dėmesys užduotims: „Codeforces Benchmark“ įvertina modelio kodavimo ir algoritminių pagrindimo galimybes, palygindamas jo veiklą su dalyviais su žmonėmis, susidūrus su konkurenciniais kodavimo iššūkiais.

Apibendrinant galima pasakyti, kad nors „Deepseek-R1“ konkurencingai veikia abiejuose etalonuose, jis rodo stipresnį santykinį rezultatą „Codeforces“ etalone, kur dalyvių užima labai aukštai. Tačiau „SWE“ patikrintame etalone jo našumas taip pat yra stiprus, tačiau šiek tiek mažiau konkurencingas, palyginti su kai kuriais kitais modeliais, tokiais kaip „Claude-3,5-Sonnet-1022“. Apskritai, „Deepseeek-R1“ rodo tvirtas kodavimo ir programinės įrangos patikrinimo užduočių galimybes.

Citatos:
[1] https://www.prompthub.us/blog/deepseek-r-1-model-oveview-and-how-it-ranks-against-openais-o1
[2] https://www.datacamp.com/blog/deepseek-r1
[3] https://blog.getbind.co/2025/01/23/deepseek-r1-vs-gpt-o1-vs-caudaude-3-5-sonnet- which-iis-best-for-coding/
[4] https://techcrunch.com/2025/01/27/deepseek-claims-its-reasoning-model-peats-openais-o1-on-cither-benchmarks/
[5] https://forum.effectivealtruism.org/posts/d3ifbmyu5gte8xriz/is-deepseee-r1-already-better than-o3-wen-inference-costs
[6] https://blog.promptlayer.com/openai-o3-vs-deepseek-r1-an-analysis-of-reasoning-models/
[7] https://huggingface.co/deepseek-ai/deepseek-r1
[8] https://arxiv.org/html/2501.12948v1