Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Kā DeepSeek-R1 sniegums SWE verificētajā etalonā salīdzina ar tā veiktspēju CodeForces etalonam


Kā DeepSeek-R1 sniegums SWE verificētajā etalonā salīdzina ar tā veiktspēju CodeForces etalonam


DeepSEEK-R1 demonstrē spēcīgu sniegumu dažādos etalonos, ieskaitot SWE verificēto un CodeForces etalonus. Šeit ir detalizēts tā snieguma salīdzinājums šiem diviem etaloniem:

SWE verificēts etalons

- Veiktspēja: DeepSEEK-R1 sasniedza rezultātu 49,2% no SWE verificētā etalona, ​​kas novērtē spriešanu programmatūras inženierijas uzdevumos. Šis rezultāts ir nedaudz apsteidzis Openai O1-1217 48,9%, bet nedaudz aiz Claude-3,5-Sonnet-1022 50,8% [2] [3].
- Uzdevuma uzmanības centrā: SWE verificētais etalons koncentrējas uz uzdevumiem, kas saistīti ar programmatūras pārbaudi, pieprasot modelim parādīt tā spēju pamatot programmatūras inženierijas koncepcijas.

CodeForces etalons

-Veiktspēja: CodeForces etalonā DeepSEEK-R1 sasniedza procentīles rangu 96,3 un ELO reitings 2029. gadā. Tas to novieto dalībnieku augstākajā procentilē, lai gan tas nedaudz atpaliek no Openai O1-1217, kas ieguva procentīli 96,6 un elo vērtējumu 2061 [2] [3].
- Uzdevuma uzmanība: CodeForces etalons novērtē modeļa kodēšanas un algoritmiskās spriešanas iespējas, salīdzinot tā sniegumu ar cilvēku dalībniekiem konkurences kodēšanas izaicinājumos.

Rezumējot, lai gan DeepSeek-R1 darbojas konkurētspējīgi abos etalonos, tas parāda spēcīgāku relatīvo sniegumu CodeForces etalonā, kur tas dalībnieku vidū ir ļoti augsts. Tomēr SWE verificētajā etalonā tā veiktspēja ir arī spēcīga, bet nedaudz mazāk konkurētspējīga, salīdzinot ar dažiem citiem modeļiem, piemēram, Claude-3,5-Sonet-1022. Kopumā DeepSEEK-R1 demonstrē stabilas iespējas gan kodēšanas, gan programmatūras verifikācijas uzdevumos.

Atsauces:
[1.]
[2] https://www.datacamp.com/blog/deepseek-r1
.
.
[5] https://forum.effectivealtruism.org/posts/d3ifbmyu5gte8xriz/is-depseek-r1-already-better-than-o3-when-inference-izmaksas
.
[7] https://huggingface.co/deepseek-ai/deepseek-r1
[8] https://arxiv.org/html/2501.12948v1