Deepseek-R1 visar stark prestanda över olika riktmärken, inklusive SWE-verifierade och codeforces riktmärken. Här är en detaljerad jämförelse av dess prestanda på dessa två riktmärken:
SWE Verified Benchmark
- Prestanda: Deepseek-R1 uppnådde en poäng på 49,2% på SWE-verifierade riktmärken, som utvärderar resonemang i mjukvaruteknikuppgifter. Denna poäng ligger något före OpenAI O1-1217: s 48,9% men något bakom Claude-3.5-Sonnet-1022: s 50,8% [2] [3].- Uppgiftsfokus: SWE -verifierade riktmärken fokuserar på uppgifter relaterade till programvaruverifiering, vilket kräver att modellen visar sin förmåga att resonera om programvaruteknikkoncept.
CodeForces Benchmark
-Prestanda: På CodeForces-riktmärket uppnådde Deepseek-R1 en percentilrankning på 96,3 och ett ELO-betyg på 2029. Detta placerar den i den högsta procentilen av deltagarna, även om det är något bakom OpenAI O1-1217, som gjorde en percentil på 96,6 och en elo-rating på 2061 [2] [3].- Uppgiftsfokus: Codeforces Benchmark bedömer en modells kodning och algoritmiska resonemang genom att jämföra dess prestanda med mänskliga deltagare i konkurrerande kodningsutmaningar.
Sammanfattningsvis, medan Deepseek-R1 presterar konkurrenskraftigt på båda riktmärkena, visar det en starkare relativ prestanda på Codeforces-riktmärket, där det rankas mycket högt bland deltagarna. Men på SWE-verifierade riktmärken är dess prestanda också stark men något mindre konkurrenskraftig jämfört med vissa andra modeller som Claude-3.5-Sonnet-1022. Sammantaget visar Deepseek-R1 robusta funktioner i både kodnings- och programvaruverifieringsuppgifter.
Citeringar:
]
[2] https://www.datacamp.com/blog/deepseek-r1
]
]
]
]
[7] https://huggingface.co/deepseek-ai/deepseek-r1
[8] https://arxiv.org/html/2501.12948v1