DeepSeek-R1 výkon na Math-500 a AIME 2024 Benchmarks

Jak je výkon DeepSeek-R1 na benchmarku Math-500 ve srovnání s jeho výkonem na AIME 2024 Benchmark

DeepSeek-R1 ukazuje silný výkon napříč různými matematickými benchmarky, zejména na testech Math-500 a AIME 2024. Zde je podrobné srovnání jeho výkonu na těchto dvou benchmarcích:

Math-500 Benchmark

-Výkon: DeepSeek-R1 dosáhne působivého skóre@1 97,3% na benchmarku Math-500. Toto skóre ukazuje, že model je vysoce účinný při řešení různých matematických problémů na střední škole vyžadující podrobné uvažování [1] [4].
-Srovnání s OpenAI O1-1217: DeepSeek-R1 mírně překonává OpenAI O1-1217, což ve stejném měřítku skóre 96,4%. To naznačuje, že DeepSeek-R1 má mírnou výhodu při manipulaci s typy matematických problémů prezentovaných v Math-500 [4] [6].

Aime 2024 Benchmark

- Výkon: Na benchmarku AIME 2024 skóre DeepSeek-R1 79,8%. Tento měřítko vyhodnocuje pokročilé vícestupňové matematické uvažování a výkon Deepseek-R1 naznačuje, že je schopen zvládnout komplexní matematické problémy [1] [4].
-Srovnání s OpenAI O1-1217: DeepSeek-R1 také mírně překonává OpenAI O1-1217 na AIME 2024, což skóre 79,2%. Tento mezní rozdíl naznačuje, že oba modely jsou vysoce konkurenceschopné v pokročilých úkolech matematického uvažování [4] [6].

Klíčové rozdíly mezi benchmarky

-Složitost problému: AIME 2024 se zaměřuje na pokročilejší a složitější matematické problémy ve srovnání s Math-500, což zahrnuje širší škálu problémů na střední škole.
-Výkon modelu: DeepSeek-R1 ukazuje vyšší úspěšnost na Math-500 než na AIME 2024, což naznačuje, že je účinnější při řešení široké škály matematických problémů spíše než jen pokročilé.

Celkově DeepSeek-R1 ukazuje silné schopnosti matematického uvažování, s pozoruhodnou hranou při řešení různých matematických problémů, jak je vidět v benchmarku Math-500, a konkurenční výkon v pokročilých úkolech matematického uvažování, jak bylo vyhodnoceno AIME 2024.

Citace:
[1] https://huggingface.co/deepseek-ai/deepseek-r1
[2] https://artificialanalysis.ai/models/deepseek-r1
[3] https://blog.promptLayer.com/openai-o3-vs-deepseek-r1-an-analýza-of- reasong-models/
[4] https://www.datacamp.com/blog/deepseek-r1
[5] https://arcprize.org/blog/r1-zero-r-R1-results-Analysis
[6] https://www.inferless.com/learn/the-pultimate-guide-to-deepseek-modells
[7] https://techcrunch.com/2025/01/27/deepseek-taims-its-leasoning-Model-beats-openais-o1-on-cire-benchmarks/
[8] https://www.geekwire.com/2025/deepseeks-new-model-shows-that-ai-expertise-might-matter-than-compute-in-2025/