Výkon Deepseek-R1 na referenčných hodnotách Math-500 a AIME 2024

Ako sa porovnáva výkonnosť Deepseek-R1 na referenčnom meradle Math-500 s jeho výkonom na referenčnej hodnote AIME 2024

Deepseek-R1 demonštruje silný výkon v rôznych matematických referenčných hodnotách, najmä v testoch Math-500 a AIME 2024. Tu je podrobné porovnanie jeho výkonu v týchto dvoch referenčných hodnotách:

Math-500 Benchmark

-Výkon: Deepseek-R1 dosahuje pôsobivú prihrávku@1 skóre 97,3% na referenčnej hodnote Math-500. Toto skóre naznačuje, že model je vysoko účinný pri riešení rôznych matematických problémov na vysokej škole, ktorá si vyžaduje podrobné zdôvodnenie [1] [4].
-Porovnanie s OpenAI O1-1217: Deepseek-R1 mierne prekoná OpenAI O1-1217, čo skóre 96,4% na rovnakom benchmarku. To naznačuje, že Deepseek-R1 má miernu výhodu pri riešení typov matematických problémov uvedených v Math-500 [4] [6].

AIME 2024 Benchmark

- Výkon: Na referenčnej hodnote AIME 2024 skóre Deepseek-R1 skóre 79,8%. Táto referenčná hodnota hodnotí pokročilé viacstupňové matematické zdôvodnenie a výkon Deepseek-R1 naznačuje, že je schopný zvládnuť zložité matematické problémy [1] [4].
-Porovnanie s OpenAI O1-1217: Deepseek-R1 tiež mierne prekonáva OpenAI O1-1217 na AIME 2024, čo skóre 79,2%. Tento okrajový rozdiel naznačuje, že oba modely sú vysoko konkurencieschopné v pokročilých matematických uvažovacích úlohách [4] [6].

Kľúčové rozdiely medzi referenčnými hodnotami

-Zložitosť problémov: AIME 2024 sa zameriava na pokročilejšie a zložitejšie matematické problémy v porovnaní s Math-500, čo zahŕňa širšiu škálu problémov na vysokej škole.
-Výkonnosť modelu: Deepseek-R1 ukazuje vyššiu mieru úspešnosti na Math-500 ako na AIME 2024, čo naznačuje, že je efektívnejšia pri riešení širokého spektra matematických problémov, a nielen pokročilých problémov.

Celkovo Deepseek-R1 demonštruje silné schopnosti matematického zdôvodnenia, s pozoruhodnou výhodou pri riešení rôznych matematických problémov, ako je vidieť v referenčnej hodnote Math-500, a konkurencieschopný výkon v pokročilých matematických úvahách, ktoré hodnotilo AIME 2024.

Citácie:
[1] https://huggingface.co/deepseek-ai/deepseek-r1
[2] https://artificialanalysis.ai/models/deepseek-r1
[3] https://blog.promptlayer.com/openai-o3-vs-deepseek-r1-an-analysis-of-reasoning-models/
[4] https://www.datacamp.com/blog/deepseek-r1
[5] https://arcprize.org/blog/r1-zero-r1-results-analysis
[6] https://www.inferless.com/learn/the-ultimate-guide-to-deepseek-models
[7] https://techcrunch.com/2025/01/27/deepseek-clars-its-reasoning-model-beats-openais-o1-on-ce-cet-cetace-benchmarks/
[8] https://www.geekwire.com/2025/deepseeks-new-model-shows-that-ai-expertise-might-matter-matter-more-han-compute-in-2025/