Výkon Deepseeka na benchmarku AIME 2024 poskytuje významné vhled do jeho celkových schopností matematického uvažování. AIME je náročná matematická soutěž pro studenty středních škol, známá svými přísnými a složitými problémy. Deepseekovy modely prokázaly působivé výsledky v tomto benchmarku a představily jejich schopnost řešit pokročilé matematické koncepty.
Klíčové výkony
- Úspěchy přesnosti: Modely DeepSeek dosáhly významné přesnosti na AIME 2024. Například model Deepseek R1 dosáhl 52,5% přesnosti přesnosti a překonal jiné modely, jako je OpenAi's O1-Preview, který skóroval 44,6% [5]. Kromě toho model parametru 32B z Deepseeku dosáhl přesnosti 72,6%, ačkoli to bylo o něco nižší než jiný model, O1-0912, který skóroval 74,4% [1].
- Srovnání s lidským výkonem: Střední skóre pro lidské účastníky v AIME je historicky mezi 4 a 6 správnými odpověďmi z 15 otázek. Zatímco Deepseekovy modely prokázaly silný výkon, stále čelí výzvám v důsledném řešení pokročilých matematických problémů, podobně jako u lidských účastníků [7].
-Zdůvodnění a řešení problémů: Modely Deepseek vynikají v matematickém uvažování pomocí technik, jako je zdůvodnění krok za krokem a použití nástrojů. To je patrné v jejich výkonu na jiných matematických benchmarcích, kde překonali stávající modely s otevřeným zdrojovým kódem [2]. Schopnost poskytovat transparentní uvažovací procesy, podobné lidskému jednání, zvyšuje jejich vzdělávací hodnotu a důvěryhodnost [5].
Omezení a výzvy
- Variabilita výkonu: Existuje znatelný pokles výkonu, když modely DeepSeek se setkávají s variantními otázkami nebo otázky, které nejsou přímo zahrnuty do jejich tréninkových dat. Například zatímco vynikají na konkrétních testovacích datech, jejich schopnost zobecnit na změněné verze otázek je omezená [4].
- Benchmark Saturation: AIME Benchmark zůstává pro modely AI náročné, protože dosud není nasycené, což znamená, že modely se v tomto úkolu mohou stále výrazně zlepšit [7]. To naznačuje, že zatímco Deepseek udělal kroky, existuje prostor pro další rozvoj v matematickém uvažování.
Budoucí důsledky
Výkon Deepseek na AIME 2024 zdůrazňuje potenciál, aby modely AI vynikaly v matematickém uvažování při kombinaci odborných znalostí domény s efektivními tréninkovými technikami. Tento přístup by mohl vést k specializovanějším modelům, které dosahují silných výsledků se skromnými výpočetními zdroji, čímž by se zaměřilo na soustředění ze syrového výpočetního výkonu na strategie inteligentního tréninku [1]. Jak se AI neustále vyvíjí, modely jako Deepseek budou hrát klíčovou roli při posunutí hranic schopností matematického uvažování.
Citace:
[1] https://www.geekwire.com/2025/deepseeks-new-model-shows-that-Ai-Expertise-Matter-Than-compute-in-2025/
[2] https://github.com/deepseek-ai/deepseek-maath
[3] https://www.byteplus.com/en/topic/384068
[4] https://www.reddit.com/r/localllama/comments/1ibxhwp/deepSeeKr1distillqwen32b_2024_aime_i_performance/
[5] https://smythos.com/ai-agents/agent-architectures/deepseek-r1/
[6] https://www.medrxiv.org/content/10.1101/2025.02.06.25321749v1.full-text
[7] https://www.vals.ai/benchmarks/aime-2025-03-11
[8] https://arxiv.org/html/2503.10573v1