„Deepseek-R1“ prieš „Openai O1-1217“: etaloninis našumo palyginimas

Kaip „Deepseek-R1“ atlikimas SWE patikrintame etalone, palyginti su jo našumu „Codeforces“ etalone

„Deepseek-R1“ demonstruoja stiprų našumą įvairiuose etalonuose, įskaitant ir SWE patikrintus, ir „Codeforces“ etalonus. Čia pateiktas išsamus jo našumo palyginimas su šiais dviem etalonais:

SWE patikrintas etalonas

Pagal SWE patikrintą etaloną „Deepseek-R1“ pasiekia 49,2%balą, kuris šiek tiek lenkia „Openai“ O1-1217, esant 48,9%[2] [3]. Šis etalonas įvertina modelio pagrindus atliekant programinės įrangos inžinerijos užduotis, daugiausia dėmesio skiriant tokioms užduotims kaip kodo patikrinimas ir derinimas. Nors „Deepseeek-R1“ veikia gerai, „Claude-3,5-Sonnet-1022“ šiek tiek suklysta, kai balai yra 50,8%[3].

„Codeforces“ etalonas

Priešingai, „Deepseeek-R1“ išsiskiria „Codeforces“ etalonu, pasiekdamas 96,3 procentilį, o ELO-2029 m. [3] [4]. Tai pateikia jį tarp geriausių konkurencingų kodavimo atlikėjų, atidžiai sekdami „Openai O1-1217“, o tai lemia 96,6 procentilį ir 2061 m. Reitingą [3]. „Codeforces“ etalonas įvertina modelio kodavimo ir algoritminių pagrindimo galimybes, palygindamas jo veiklą su žmonių dalyviais.

palyginimas

Nors „Deepseek-R1“ konkursiškai veikia abiejuose etalonuose, jo našumas yra ryškesnis „Codeforces“ etalone. Tai rodo, kad „Deepseek-R1“ yra ypač įgudęs išspręsti algoritminius ir kodavimo iššūkius, kurie yra labiau struktūruoti ir reikalauja tikslių loginių samprotavimų. „SWE“ patikrintame etalone, kol jis gerai veikia, jis yra šiek tiek mažiau dominuojantis, palyginti su jo našumu „Codeforces“. Tai rodo, kad „Deepseek-R1“ gali būti labiau tinkamas užduotims, kurioms reikalingas algoritminis pagrindimas, o ne tas, kurios orientuojasi į programinės įrangos patikrinimą ir derinimą.

Apskritai, „Deepseeek-R1“ parodo įvairių tipų kodavimo ir samprotavimo užduotis universalumą, tačiau jo stipriosios pusės yra labiau akivaizdžios algoritminiuose problemų sprendimo srityje.

Citatos:
[1] https://www.prompthub.us/blog/deepseek-r-1-model-oveview-and-how-it-ranks-against-openais-o1
[2] https://www.datacamp.com/blog/deepseek-r1
[3] https://blog.getbind.co/2025/01/23/deepseek-r1-vs-gpt-o1-vs-caudaude-3-5-sonnet- which-iis-best-for-coding/
[4] https://techcrunch.com/2025/01/27/deepseek-claims-its-reasoning-model-peats-openais-o1-on-cither-benchmarks/
[5] https://forum.effectivealtruism.org/posts/d3ifbmyu5gte8xriz/is-deepseee-r1-already-better than-o3-wen-inference-costs
[6] https://blog.promptlayer.com/openai-o3-vs-deepseek-r1-an-analysis-of-reasoning-models/
[7] https://huggingface.co/deepseek-ai/deepseek-r1
[8] https://arxiv.org/html/2501.12948v1