Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Kuinka Deepseek-R1: n suorituskyky SWE: n varmennetussa vertailukohdassa verrataan sen suorituskykyyn Codeforces-vertailuarvoon


Kuinka Deepseek-R1: n suorituskyky SWE: n varmennetussa vertailukohdassa verrataan sen suorituskykyyn Codeforces-vertailuarvoon


Deepseek-R1 osoittaa vahvan suorituskyvyn erilaisissa vertailuarvoissa, mukaan lukien sekä SWE: n varmennettu että Codeforces-vertailuarvot. Tässä on yksityiskohtainen vertailu sen suorituskyvystä näissä kahdessa vertailuarvossa:

SWE vahvistettu vertailuarvo

SWE: n varmennetussa vertailukohdassa Deepseek-R1 saavuttaa pistemäärän 49,2%, mikä on hiukan edellä Openain O1-1217: stä 48,9%: lla [2] [3]. Tämä vertailuarvo arvioi mallin päättelyä ohjelmistosuunnittelutehtävissä keskittyen tehtäviin, kuten koodin todentamiseen ja virheenkorjaukseen. Vaikka Deepseek-R1 toimii hyvin, Claude-3,5-sonnet-1022 reunaa sitä hieman pisteellä 50,8%[3].

Codeforces -vertailuarvo

Sitä vastoin Deepseek-R1 on erinomainen Codeforces-vertailuarvossa, saavuttaen prosenttipiste 96,3 ja ELO-luokitus 2029 [3] [4]. Tämä sijoittaa sen kilpailukykyisen koodauksen parhaimpiin esiintyjiin, jotka seuraavat tiiviisti OpenAi O1-1217: tä, mikä johtaa prosenttipisteellä 96,6 ja luokituksella 2061 [3]. CodeForces -vertailuarvo arvioi mallin koodaus- ja algoritmisia päättelyominaisuuksia vertaamalla sen suorituskykyä ihmisen osallistujia vastaan.

Vertailu

Vaikka Deepseek-R1 toimii kilpailukykyisesti molemmissa vertailuarvoissa, sen suorituskyky on selvempi Codeforces-vertailuarvossa. Tämä viittaa siihen, että DeepSeek-R1 on erityisen taitava algoritmisten ja koodaushaasteiden ratkaisemiseen, jotka ovat jäsenneltympiä ja vaativat tarkkaa loogista päättelyä. SWE: n varmennetussa vertailukohdassa, vaikka se toimii hyvin, se on hiukan vähemmän hallitseva verrattuna sen suorituskykyyn Codeforcesissa. Tämä osoittaa, että DeepSeek-R1 saattaa olla sopivampi tehtäviin, jotka vaativat algoritmista päättelyä kuin ohjelmistojen todentamiseen ja virheenkorjaukseen keskittyneitä.

Kaiken kaikkiaan Deepseek-R1 osoittaa monipuolisuuden erityyppisissä koodaus- ja päättelutehtävissä, mutta sen vahvuudet ovat ilmeisempiä algoritmisessa ongelmanratkaisussa.

Viittaukset:
.
[2] https://www.datacamp.com/blog/deepseek-R1
.
.
[5] https://forum.effectivealtruism.org/posts/d3ifbmyu5gte8xriz/is-deepseek-r1-alweady-better-than-o3-when-inference-costs
.
[7] https://huggingface.co/deepseek-ai/deepseek-R1
[8] https://arxiv.org/html/2501.12948v1