Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Kuidas on DeepSek-R1 jõudlus SWE kinnitatud võrdlusaluses võrreldav selle jõudlusega CodeForces Benchmar


Kuidas on DeepSek-R1 jõudlus SWE kinnitatud võrdlusaluses võrreldav selle jõudlusega CodeForces Benchmar


Deepseek-R1 demonstreerib tugevat jõudlust erinevates võrdlusalustes, sealhulgas SWE kinnitatud ja CodeForces võrdlusalustes. Siin on üksikasjalik võrdlus selle jõudluse osas nendel kahel võrdlusalusel:

SWE kinnitatud võrdlusalus

- jõudlus: Deepseek-R1 saavutas SWE kinnitatud võrdlusaluse tulemuse 49,2%, mis hindab tarkvaratehnika ülesannete põhjendusi. See tulemus on pisut ees OpenAi O1-1217 48,9%, kuid pisut maha Claude-3,5-sonnet-1022 50,8% [2] [3].
- Ülesande fookus: SWE kinnitatud võrdlusalus keskendub tarkvara kontrollimisega seotud ülesannetele, nõudes mudeli näidata oma võimet arutada tarkvaratehnika kontseptsioonide osas.

Codeforces võrdlusalus

-jõudlus: Codeforces võrdlusaluse korral saavutas Deepseek-R1 protsentiili järjestuse 96,3 ja ELO-reitingu 2029. aastal. See paigutab selle osalejate tippprotsendisse, ehkki see on pisut OpenAi O1-1217 taga, mille protsentiili oli 96,6 ja ELO hinnang 2061 [2] [3].
- Ülesande fookus: CodeForces võrdlus hindab mudeli kodeerimis- ja algoritmilisi mõttekäikude võimalusi, võrreldes selle tulemuslikkust inimeste osalejate vastu konkurentsivõimeliste kodeerimise väljakutsetes.

Kokkuvõtlikult võib öelda, et kuigi Deepseek-R1 täidab mõlemas võrdlusaluses konkurentsivõimeliselt, näitab see Codeforces võrdlusaluse tugevamat suhtelist jõudlust, kus osalejate seas on väga kõrge. Kuid SWE kinnitatud võrdlusalusel on selle jõudlus ka tugev, kuid pisut vähem konkurentsivõimeline, võrreldes mõne muu mudeliga, näiteks Claude-3,5-sonnet-1022. Üldiselt demonstreerib Deepseek-R1 tugevat võimalust nii kodeerimise kui ka tarkvara kontrollimisülesannete osas.

Tsitaadid:
]
[2] https://www.datacamp.com/blog/deepseek-r1
]
]
]
]
[7] https://huggingface.co/deepseek-ai/deepseek-r1
[8] https://arxiv.org/html/2501.12948v1