Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Kuidas võrrelda Deepseek-R1 toimivust SWE kinnitatud võrdlusalusel selle jõudlusega CodeForces Benchmark


Kuidas võrrelda Deepseek-R1 toimivust SWE kinnitatud võrdlusalusel selle jõudlusega CodeForces Benchmark


Deepseek-R1 demonstreerib tugevat jõudlust erinevates võrdlusalustes, sealhulgas nii SWE kinnitatud kui ka Codeforces võrdlusalustes. Siin on üksikasjalik võrdlus selle jõudluse osas nendel kahel võrdlusalusel:

SWE kinnitatud võrdlusalus

SWE kinnitatud võrdlusalusel saavutab Deepseek-R1 skoori 49,2%, mis on OpenAi O1-1217 pisut ees 48,9%[2] [3]. See võrdlusalus hindab mudeli põhjendusi tarkvaratehnika ülesannetes, keskendudes sellistele ülesannetele nagu koodi kontrollimine ja silumine. Kuigi Deepseek-R1 toimib hästi, servib Claude-3,5-sonnet-1022 seda pisut skooriga 50,8%[3].

Codeforces võrdlusalus

Seevastu DeepSEEK-R1 paistab silma Codeforces võrdlusalusel, saavutades protsentiili 96,3 ja ELO reitingu 2029 [3] [4]. See paneb selle tipptegijate hulka konkurentsitiheda kodeerimise hulka, järgides tähelepanelikult OpenAI O1-1217, mille protsentiili on 96,6 ja reitinguga 2061 [3]. CodeForces'i võrdlusalus hindab mudeli kodeerimist ja algoritmilisi mõttekäiku, võrreldes selle tulemuslikkust inimese osalejatega.

Võrdlus

Kui DeepSEEK-R1 täidab mõlemal võrdlusalusel konkurentsi, on selle jõudlus Codeforces võrdlusaluses rohkem väljendunud. See viitab sellele, et Deepseek-R1 on eriti osav algoritmiliste ja kodeerimisprobleemide lahendamisel, mis on rohkem struktureeritud ja vajavad täpset loogilist põhjendamist. Ehkki SWE kinnitatud võrdlusalus, kuigi see toimib hästi, on see Codeforces'i jõudlusega võrreldes pisut vähem domineeriv. See näitab, et DeepSEEK-R1 võib sobida pigem algoritmilisi mõttekäike vajavate ülesannete jaoks kui tarkvara kontrollimisele ja silumisele keskendunutele.

Üldiselt näitab Deepseek-R1 erinevat tüüpi kodeerimise ja mõttekäikude mitmekülgsust, kuid selle tugevused ilmnevad rohkem algoritmiliste probleemide lahendamisel.

Tsitaadid:
]
[2] https://www.datacamp.com/blog/deepseek-r1
]
]
]
]
[7] https://huggingface.co/deepseek-ai/deepseek-r1
[8] https://arxiv.org/html/2501.12948v1