Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Kā DeepSeek-R1 veiktspēja SWE verificētajā etalonā salīdzina ar tā veiktspēju CodeForces etalonā


Kā DeepSeek-R1 veiktspēja SWE verificētajā etalonā salīdzina ar tā veiktspēju CodeForces etalonā


DeepSEEK-R1 demonstrē spēcīgu sniegumu dažādos etalonos, ieskaitot gan SWE verificēto, gan CodeForces etalonus. Šeit ir detalizēts tā snieguma salīdzinājums šiem diviem etaloniem:

SWE verificēts etalons

Uz SWE pārbaudītā etalona DeepSeek-R1 sasniedz rezultātu 49,2%, kas nedaudz apsteidz Openai O1-1217 pie 48,9%[2] [3]. Šis etalons novērtē modeļa argumentāciju programmatūras inženierijas uzdevumos, koncentrējoties uz tādiem uzdevumiem kā koda pārbaude un atkļūdošana. Kamēr DeepSEEK-R1 darbojas labi, Claude-3,5-Sonet-1022 to nedaudz izmet ar rezultātu 50,8%[3].

CodeForces etalons

Turpretī DeepSEEK-R1 izceļas ar CodeForces etalonu, sasniedzot procentīli 96,3 un ELO reitings 2029. gadā [3] [4]. Tas to novieto starp labākajiem izpildītājiem konkurences kodēšanā, cieši pēc Openai O1-1217, kas noved pie procentīles 96,6 un 2061. gada vērtējumu [3]. CodeForces etalons novērtē modeļa kodēšanas un algoritmiskās spriešanas iespējas, salīdzinot tā sniegumu ar cilvēku dalībniekiem.

salīdzinājums

Kamēr DeepSeek-R1 darbojas konkurētspējīgi abos etalonos, tā veiktspēja ir izteiktāka par CodeForces etalonu. Tas liek domāt, ka DeepSEEK-R1 ir īpaši lietpratīgs algoritmisko un kodēšanas izaicinājumu risināšanā, kas ir strukturēti un prasa precīzu loģisku spriešanu. Uz SWE verificēta etalona, ​​kaut arī tas darbojas labi, tas ir nedaudz mazāk dominējošs, salīdzinot ar tā veiktspēju CodeForces. Tas norāda, ka DeepSEEK-R1 varētu būt piemērotāks uzdevumiem, kuriem nepieciešama algoritmiska spriešana, nevis tiem, kas koncentrējas uz programmatūras pārbaudi un atkļūdošanu.

Kopumā DeepSEEK-R1 demonstrē daudzpusību dažādiem kodēšanas un argumentācijas uzdevumiem, taču tā stiprās puses ir acīmredzamākas algoritmiskajā problēmu risināšanā.

Atsauces:
[1.]
[2] https://www.datacamp.com/blog/deepseek-r1
.
.
[5] https://forum.effectivealtruism.org/posts/d3ifbmyu5gte8xriz/is-depseek-r1-already-better-than-o3-when-inference-izmaksas
.
[7] https://huggingface.co/deepseek-ai/deepseek-r1
[8] https://arxiv.org/html/2501.12948v1