DeepSeek-R1 vs OpenAI O1-1217: Srovnání výkonu benchmarku

Jak je výkon DeepSeek-R1 na ověřeném benchmarku Sweek ve srovnání s jeho výkonem na benchmarku CodeForces

DeepSeek-R1 ukazuje silný výkon v různých benchmarcích, včetně referenčních a CodeForces Benchmarks. Zde je podrobné srovnání jeho výkonu na těchto dvou benchmarcích:

Sweerified Benchmark

Na benchmarku SWE dosáhne DeepSeek-R1 skóre 49,2%, což je mírně před OpenAI O1-1217 při 48,9%[2] [3]. Tento benchmark vyhodnocuje uvažování modelu v úkolech softwarového inženýrství se zaměřením na úkoly, jako je ověření kódu a ladění. Zatímco DeepSeek-R1 funguje dobře, Claude-3,5-spon-1022 mírně okraje se skóre 50,8%[3].

CodeForces Benchmark

Naproti tomu DeepSeek-R1 vyniká na benchmarku CodeForces, dosažení percentilu 96,3 a hodnocení Elo 2029 [3] [4]. Tím se umístí mezi nejlepší umělce v konkurenčním kódování, úzce sleduje OpenAI O1-1217, který vede s percentilem 96,6 a hodnocením 2061 [3]. Benchmark CodeForces hodnotí schopnosti kódování a algoritmické uvažování modelu porovnáním svého výkonu s lidskými účastníky.

Porovnání

Zatímco DeepSeek-R1 provádí konkurenceschopné na obou benchmarcích, jeho výkon je výraznější na benchmarku CodeForces. To naznačuje, že DeepSeek-R1 je zvláště zběhlý při řešení algoritmických a kódovacích výzev, které jsou strukturovanější a vyžadují přesné logické uvažování. Na SWE ověřeném benchmarku, zatímco to funguje dobře, je o něco méně dominantní ve srovnání s jeho výkonem na Codeforces. To ukazuje, že DeepSeek-R1 může být vhodnější pro úkoly vyžadující spíše algoritmické uvažování než za zaměření na ověření a ladění softwaru.

Celkově DeepSeek-R1 ukazuje všestrannost napříč různými typy úkolů kódování a uvažování, ale jeho silné stránky jsou patrnější při řešení algoritmických problémů.

Citace:
[1] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-it-ranks-against-openais-o1
[2] https://www.datacamp.com/blog/deepseek-r1
[3] https://blog.getbind.co/2025/01/23/deepseek-r1-vs-g-o1-VS-Claude-3-5-Sonet-which-is-best- for-coding/
[4] https://techcrunch.com/2025/01/27/deepseek-taims-its-leasoning-Model-beats-openais-o1-on-benchmarks/
[5] https://forum.effectivealtruism.org/posts/d3ifbmyu5gte8xriz/is-deepseek-d-already-tetter-than-o3-when-inference-costs
[6] https://blog.promptLayer.com/openai-o3-vs-deepseek-r1-an-analýza-o--o-leasoning-models/
[7] https://huggingface.co/deepseek-ai/deepseek-r1
[8] https://arxiv.org/html/2501.12948v1