DeepSeek-R1 pret Openai O1-1217: Benchmark veiktspējas salīdzinājums

Kā DeepSeek-R1 veiktspēja SWE verificētajā etalonā salīdzina ar tā veiktspēju CodeForces etalonā

DeepSEEK-R1 demonstrē spēcīgu sniegumu dažādos etalonos, ieskaitot gan SWE verificēto, gan CodeForces etalonus. Šeit ir detalizēts tā snieguma salīdzinājums šiem diviem etaloniem:

SWE verificēts etalons

Uz SWE pārbaudītā etalona DeepSeek-R1 sasniedz rezultātu 49,2%, kas nedaudz apsteidz Openai O1-1217 pie 48,9%[2] [3]. Šis etalons novērtē modeļa argumentāciju programmatūras inženierijas uzdevumos, koncentrējoties uz tādiem uzdevumiem kā koda pārbaude un atkļūdošana. Kamēr DeepSEEK-R1 darbojas labi, Claude-3,5-Sonet-1022 to nedaudz izmet ar rezultātu 50,8%[3].

CodeForces etalons

Turpretī DeepSEEK-R1 izceļas ar CodeForces etalonu, sasniedzot procentīli 96,3 un ELO reitings 2029. gadā [3] [4]. Tas to novieto starp labākajiem izpildītājiem konkurences kodēšanā, cieši pēc Openai O1-1217, kas noved pie procentīles 96,6 un 2061. gada vērtējumu [3]. CodeForces etalons novērtē modeļa kodēšanas un algoritmiskās spriešanas iespējas, salīdzinot tā sniegumu ar cilvēku dalībniekiem.

salīdzinājums

Kamēr DeepSeek-R1 darbojas konkurētspējīgi abos etalonos, tā veiktspēja ir izteiktāka par CodeForces etalonu. Tas liek domāt, ka DeepSEEK-R1 ir īpaši lietpratīgs algoritmisko un kodēšanas izaicinājumu risināšanā, kas ir strukturēti un prasa precīzu loģisku spriešanu. Uz SWE verificēta etalona, kaut arī tas darbojas labi, tas ir nedaudz mazāk dominējošs, salīdzinot ar tā veiktspēju CodeForces. Tas norāda, ka DeepSEEK-R1 varētu būt piemērotāks uzdevumiem, kuriem nepieciešama algoritmiska spriešana, nevis tiem, kas koncentrējas uz programmatūras pārbaudi un atkļūdošanu.

Kopumā DeepSEEK-R1 demonstrē daudzpusību dažādiem kodēšanas un argumentācijas uzdevumiem, taču tā stiprās puses ir acīmredzamākas algoritmiskajā problēmu risināšanā.

Atsauces:
[1.]
[2] https://www.datacamp.com/blog/deepseek-r1
.
.
[5] https://forum.effectivealtruism.org/posts/d3ifbmyu5gte8xriz/is-depseek-r1-already-better-than-o3-when-inference-izmaksas
.
[7] https://huggingface.co/deepseek-ai/deepseek-r1
[8] https://arxiv.org/html/2501.12948v1