Deepseek-R1 osoittaa vahvan suorituskyvyn erilaisissa vertailuarvoissa, mukaan lukien SWE: n varmennetut ja Codeforces-vertailuarvot. Tässä on yksityiskohtainen vertailu sen suorituskyvystä näissä kahdessa vertailuarvossa:
SWE vahvistettu vertailuarvo
- Suorituskyky: Deepseek-R1 saavutti 49,2%: n pisteet SWE: n varmennetussa vertailukohdassa, joka arvioi päättelyn ohjelmistotekniikan tehtävissä. Tämä pistemäärä on hiukan edellä OpenAi O1-1217: n 48,9%, mutta hiukan takana Claude-3,5-Sonnet-1022: n 50,8% [2] [3].- Tehtävän keskittyminen: SWE -varmennettu vertailuindeksi keskittyy ohjelmistojen todentamiseen liittyviin tehtäviin, jotka vaativat mallia osoittamaan kykynsä perustella ohjelmistosuunnittelukonsepteja.
Codeforces -vertailuarvo
-Suorituskyky: CodeForces-vertailuarvossa Deepseek-R1 saavutti prosenttipisteen sijoituksen 96,3 ja ELO-luokituksen 2029. Tämä asettaa sen osallistujien parhaaseen prosenttipisteeseen, vaikkakin se on hiukan takana OpenAi O1-1217: ssä, mikä oli prosenttipiste 96,6 ja ELO-luokitus 2061 [2] [3].- Tehtävän keskittyminen: CodeForces -vertailuarvo arvioi mallin koodausta ja algoritmisia päättelyominaisuuksia vertaamalla sen suorituskykyä ihmisen osallistujiin kilpaileviin koodaushaasteisiin.
Yhteenvetona voidaan todeta, että vaikka Deepseek-R1 toimii kilpailukykyisesti molemmilla vertailuarvoilla, se osoittaa vahvemman suhteellisen suorituskyvyn CodeForces-vertailuarvossa, missä se on erittäin korkea osallistujien keskuudessa. SWE: n varmennetussa vertailukohdassa sen suorituskyky on kuitenkin myös vahva, mutta hiukan vähemmän kilpailukykyinen verrattuna muihin malleihin, kuten Claude-3,5-Sonnet-1022. Kaiken kaikkiaan Deepseek-R1 osoittaa voimakkaita ominaisuuksia sekä koodauksen että ohjelmistojen varmennustehtävissä.
Viittaukset:
.
[2] https://www.datacamp.com/blog/deepseek-R1
.
.
[5] https://forum.effectivealtruism.org/posts/d3ifbmyu5gte8xriz/is-deepseek-r1-alweady-better-than-o3-when-inference-costs
.
[7] https://huggingface.co/deepseek-ai/deepseek-R1
[8] https://arxiv.org/html/2501.12948v1