Deepseek-R1 osoittaa vahvan suorituskyvyn erilaisissa vertailuarvoissa, mukaan lukien sekä SWE: n varmennettu että Codeforces-vertailuarvot. Tässä on yksityiskohtainen vertailu sen suorituskyvystä näissä kahdessa vertailuarvossa:
SWE vahvistettu vertailuarvo
SWE: n varmennetussa vertailukohdassa Deepseek-R1 saavuttaa pistemäärän 49,2%, mikä on hiukan edellä Openain O1-1217: stä 48,9%: lla [2] [3]. Tämä vertailuarvo arvioi mallin päättelyä ohjelmistosuunnittelutehtävissä keskittyen tehtäviin, kuten koodin todentamiseen ja virheenkorjaukseen. Vaikka Deepseek-R1 toimii hyvin, Claude-3,5-sonnet-1022 reunaa sitä hieman pisteellä 50,8%[3].Codeforces -vertailuarvo
Sitä vastoin Deepseek-R1 on erinomainen Codeforces-vertailuarvossa, saavuttaen prosenttipiste 96,3 ja ELO-luokitus 2029 [3] [4]. Tämä sijoittaa sen kilpailukykyisen koodauksen parhaimpiin esiintyjiin, jotka seuraavat tiiviisti OpenAi O1-1217: tä, mikä johtaa prosenttipisteellä 96,6 ja luokituksella 2061 [3]. CodeForces -vertailuarvo arvioi mallin koodaus- ja algoritmisia päättelyominaisuuksia vertaamalla sen suorituskykyä ihmisen osallistujia vastaan.Vertailu
Vaikka Deepseek-R1 toimii kilpailukykyisesti molemmissa vertailuarvoissa, sen suorituskyky on selvempi Codeforces-vertailuarvossa. Tämä viittaa siihen, että DeepSeek-R1 on erityisen taitava algoritmisten ja koodaushaasteiden ratkaisemiseen, jotka ovat jäsenneltympiä ja vaativat tarkkaa loogista päättelyä. SWE: n varmennetussa vertailukohdassa, vaikka se toimii hyvin, se on hiukan vähemmän hallitseva verrattuna sen suorituskykyyn Codeforcesissa. Tämä osoittaa, että DeepSeek-R1 saattaa olla sopivampi tehtäviin, jotka vaativat algoritmista päättelyä kuin ohjelmistojen todentamiseen ja virheenkorjaukseen keskittyneitä.Kaiken kaikkiaan Deepseek-R1 osoittaa monipuolisuuden erityyppisissä koodaus- ja päättelutehtävissä, mutta sen vahvuudet ovat ilmeisempiä algoritmisessa ongelmanratkaisussa.
Viittaukset:
.
[2] https://www.datacamp.com/blog/deepseek-R1
.
.
[5] https://forum.effectivealtruism.org/posts/d3ifbmyu5gte8xriz/is-deepseek-r1-alweady-better-than-o3-when-inference-costs
.
[7] https://huggingface.co/deepseek-ai/deepseek-R1
[8] https://arxiv.org/html/2501.12948v1