Deepseek-R1 vs OpenAI O1-1217: Porovnanie benchmarku výkonu

Ako sa porovnáva výkonnosť Deepseek-R1 na SWE.

DeepSeek-R1 demonštruje silný výkon v rôznych referenčných hodnotách, vrátane referenčných hodnôt overených SWE a CodeForces. Tu je podrobné porovnanie jeho výkonu v týchto dvoch referenčných hodnotách:

SWE Overené benchmark

Na overenej referenčnej hodnote SWE dosahuje Deepseek-R1 skóre 49,2%, čo je mierne pred OpenAi's O1-1217 pri 48,9%[2] [3]. Táto referenčná hodnota hodnotí zdôvodnenie modelu v úlohách softvérového inžinierstva so zameraním na úlohy, ako je overovanie kódu a ladenie. Zatiaľ čo DeepSeek-R1 funguje dobre, Claude-3,5-Sonnet-1022 ho mierne okraje so skóre 50,8%[3].

CodeForces Benchmark

Naopak, Deepseek-R1 vyniká v referenčnej hodnote CodeForces, dosahuje percentil 96,3 a hodnotenie ELO z roku 2029 [3] [4]. To ho umiestňuje medzi najlepších výkonných umelcov v konkurenčnom kódovaní, ktoré úzko sleduje OpenAI O1-1217, čo vedie s percentilom 96,6 a hodnotením 2061 [3]. Benchmark CodeForces hodnotí schopnosti kódovania a algoritmického zdôvodnenia modelu porovnaním jeho výkonnosti s ľudskými účastníkmi.

Porovnanie

Zatiaľ čo DeepSeek-R1 konkurenčne vystupuje v oboch referenčných hodnotách, jeho výkon je výraznejší v referenčnej hodnote CodeForces. To naznačuje, že Deepseek-R1 je obzvlášť adept pri riešení algoritmických a kódovacích problémov, ktoré sú štruktúrovanejšie a vyžadujú presné logické zdôvodnenie. Na overenej referenčnej hodnote SWE, zatiaľ čo funguje dobre, je o niečo menej dominantný v porovnaní s jeho výkonom na kódovýchForciách. To naznačuje, že DeepSeek-R1 by mohol byť vhodnejší pre úlohy, ktoré si vyžadujú skôr algoritmické zdôvodnenie, než tie, ktoré sa zameriavajú na overenie a ladenie softvéru.

Celkovo Deepseek-R1 demonštruje všestrannosť v rôznych typoch úloh kódovania a zdôvodňovania, ale jeho silné stránky sú zrejmejšie v algoritmickom riešení problémov.

Citácie:
[1] https://www.prompthub.us/blog/deepseek-r-1-model-model-wow-and-how-it----------- ranks-against-openais-o1
[2] https://www.datacamp.com/blog/deepseek-r1
[3] https://blog.getbind.co/2025/01/23/deepseek-r1-vs-gpt-o1-vs-claude-3-5-5-sonnet-which-is-best-for-coding/
[4] https://techcrunch.com/2025/01/27/deepseek-clars-its-reasoning-model-beats-openais-o1-on-ce-cet-cetace-cipenchmarks/
[5] https://forum.effectivealtruism.org/posts/d3ifbMyU5gte8xriz/is-deepseek-r1-already-better-better-han-o-o3-when-inferencia-costs
[6] https://blog.promptlayer.com/openai-o3-vs-deepseek-r1-an-analysis-of-reasoning-models/
[7] https://huggingface.co/deepseek-ai/deepseek-r1
[8] https://arxiv.org/html/2501.12948v1