„Deepseek-R1“ pasirodymas „Math-500“ ir „Aime 2024“ etalonai

Kaip „Deepseeek-R1“ pasirodymas „Math-500“ etalone, palyginti su jo našumu „Aime 2024“ etalone

„Deepseek-R1“ demonstruoja tvirtus įvairių matematinių etalonų rezultatus, ypač atliekant „Math-500“ ir „Aime 2024“ testus. Čia pateiktas išsamus jo našumo palyginimas su šiais dviem etalonais:

Math-500 etalonas

-Našumas: „Deepseek-R1“ pasiekia įspūdingą leidimą@1 97,3% balas „Math-500“ etalone. Šis balas rodo, kad modelis yra labai efektyvus sprendžiant įvairias aukšto lygio matematines problemas, kurioms reikia išsamių samprotavimų [1] [4].
-Palyginimas su „Openai O1-1217“: „Deepseek-R1“ šiek tiek pranoksta „Openai O1-1217“, kuris tuo pačiu etalonu įvertina 96,4%. Tai rodo, kad „Deepseek-R1“ turi nedidelį pranašumą tvarkant matematinių problemų, pateiktų MATH-500, tipus [4] [6].

AIME 2024 Enchmark

- Našumas: „Aime 2024“ etalone „Deepseek-R1“ balai 79,8%. Šis etalonas įvertina pažangų daugiapakopį matematinį pagrindimą, o „Deepseeek-R1“ našumas rodo, kad jis gali išspręsti sudėtingas matematines problemas [1] [4].
-Palyginimas su „Openai O1-1217“: „Deepseek-R1“ taip pat šiek tiek pralenkia „Openai O1-1217“ „Aime 2024“, kuris įvertina 79,2%. Šis nedidelis skirtumas leidžia manyti, kad abu modeliai yra labai konkurencingi atliekant pažangias matematinio samprotavimo užduotis [4] [6].

Pagrindiniai skirtumai tarp etalonų

-Problemos sudėtingumas: „Aime 2024“ daugiausia dėmesio skiria sudėtingesnėms ir sudėtingesnėms matematinėms problemoms, palyginti su „Math-500“, kuri apima platesnį aukšto lygio problemų spektrą.
-Modelio našumas: „Deepseek-R1“ parodo didesnį „Math-500“ sėkmės procentą nei „Aime 2024“, tai rodo, kad jis yra veiksmingesnis sprendžiant daugybę matematinių problemų, o ne tik pažengusiųjų.

Apskritai, „Deepseeek-R1“ demonstruoja stiprias matematinio samprotavimo galimybes, pasižymintis pastebimu pranašumu sprendžiant įvairias matematines problemas, kaip matyti MATH-500 etalone, ir konkurencingi rezultatai pažengusiose matematinių samprotavimų užduotyse, kurias vertina AGE 2024.

Citatos:
[1] https://huggingface.co/deepseek-ai/deepseek-r1
[2] https://artifialanalysis.ai/models/deepseek-r1
[3] https://blog.promptlayer.com/openai-o3-vs-deepseek-r1-an-analysis-of-reasoning-models/
[4] https://www.datacamp.com/blog/deepseek-r1
[5] https://arcprize.org/blog/r1-iaero-r1-results-analysis
[6] https://www.inferless.com/learn/the-ultimate-guide-to-deepseek-models
[7] https://techcrunch.com/2025/01/27/deepseek-claims-its-reasoning-model-peats-openais-o1-on-cither-benchmarks/
[8] https://www.geekwire.com/2025/deepseeks-new-model-shows that-ai-expertise-matter-matter-more than-compute-in-2025/