Deepseek-R1 Benchmark Porovnanie výkonu: SWE overené vs kódovéformy

Ako porovnáva výkonnosť Deepseek-R1 na SWE

Deepseek-R1 demonštruje silný výkon v rôznych referenčných hodnotách vrátane referenčných hodnôt overených SWE a CodeForces. Tu je podrobné porovnanie jeho výkonu v týchto dvoch referenčných hodnotách:

SWE Overené benchmark

- Výkon: Deepseek-R1 dosiahol skóre 49,2% na overenej referenčnej hodnote SWE, ktorá hodnotí úvahy v úlohách softvérového inžinierstva. Toto skóre je mierne pred 48,9% OpenAI O1-1217, ale mierne za 50,8% [2] [3].
- Zameranie na úlohu: Overený referenčný bod sa zameriava na úlohy týkajúce sa overenia softvéru a vyžaduje, aby model preukázal jeho schopnosť uvažovať o konceptoch softvérového inžinierstva.

CodeForces Benchmark

-Výkon: Pokiaľ ide o referenčnú hodnotu CodeForces, Deepseek-R1 dosiahla percentilné hodnotenie 96,3 a hodnotenie ELO z roku 2029. To ho umiestni do najvyššieho percentilu účastníkov, hoci je mierne za OpenAI O1-1217, ktorý získal percentilu 96,6 a hodnotenie ELO 2061 [2] [3].
- Zameranie úloh: Referenčná hodnota CodeForces hodnotí schopnosti kódovania a algoritmického zdôvodnenia modelu porovnaním jej výkonnosti s ľudskými účastníkmi v konkurenčných výzvach na kódovanie.

Stručne povedané, zatiaľ čo DeepSeek-R1 konkurenčne vystupuje v oboch referenčných hodnotách, ukazuje silnejší relatívny výkon v referenčnej hodnote CodeForces, kde sa medzi účastníkmi radí veľmi vysoko. Na overenej referenčnej hodnote SWE je však jeho výkon tiež silný, ale o niečo menej konkurencieschopný v porovnaní s niektorými ďalšími modelmi, ako je Claude-3.5-Sonnet-1022. Celkovo Deepseek-R1 demonštruje robustné schopnosti v úlohách kódovania aj overovania softvéru.

Citácie:
[1] https://www.prompthub.us/blog/deepseek-r-1-model-model-wow-and-how-it----------- ranks-against-openais-o1
[2] https://www.datacamp.com/blog/deepseek-r1
[3] https://blog.getbind.co/2025/01/23/deepseek-r1-vs-gpt-o1-vs-claude-3-5-5-sonnet-which-is-best-for-coding/
[4] https://techcrunch.com/2025/01/27/deepseek-clars-its-reasoning-model-beats-openais-o1-on-ce-cet-cetace-cipenchmarks/
[5] https://forum.effectivealtruism.org/posts/d3ifbMyU5gte8xriz/is-deepseek-r1-already-better-better-han-o-o3-when-inferencia-costs
[6] https://blog.promptlayer.com/openai-o3-vs-deepseek-r1-an-analysis-of-reasoning-models/
[7] https://huggingface.co/deepseek-ai/deepseek-r1
[8] https://arxiv.org/html/2501.12948v1