„Deepseek“ pasirodymas „Math-500“ ir „Aime 2024“ etalonai: tvirtas matematinio samprotavimo modelis

Kaip „Deepseek“ pasirodymas „Math-500“ etalone papildo savo pasirodymą „Aime 2024“ etalone

„Deepseek“ pasirodymas tiek „Math-500“, tiek „Aime 2024“ etalose pabrėžia tvirtas matematinių samprotavimo galimybes. Štai kaip jo našumas ant šių etalonų papildo vienas kitą:

Math-500 etalonas

„Deepseek-R1“ puikiai atspindi „Math-500“ etaloną, kurio įspūdingas tikslumas yra 97,3%, šiek tiek pranoksta „Openai O1-1217“ rezultatą 96,4%[4] [7]. Šis etalonas išbando įvairių aukšto lygio matematinių problemų modelius, kuriems reikalingi išsamūs samprotavimai. Stiprus „Deepseek-R1“ rezultatas rodo, kad jis labai tiksliai sutvarkė daugybę matematinių koncepcijų.

AIME 2024 Enchmark

„Aime 2024“ etalone, kuriame įvertinamas pažengęs daugiapakopis matematinis samprotavimas, „Deepseeek-R1“ pasiekia 79,8%leidimo normą, šiek tiek aplenkdamas „Openai O1-1217“ 79,2%[7]. Šis etalonas sutelktas į sudėtingesnes ir sudėtingesnes matematines problemas, palyginti su „Math-500“. „Deepseek-R1“ pasirodymas čia parodo savo sugebėjimą efektyviai spręsti pažangias matematinio samprotavimo užduotis.

papildomas spektaklis

Papildomas „Deepseek“ pasirodymo apie šiuos etalonus pobūdis yra skirtingi jų dėmesio centrai:
-„Math-500“ pabrėžia plačią matematinių koncepcijų aprėptį vidurinėje mokykloje, kur „Deepseeek-R1“ rodo išskirtinį tikslumą. Tai rodo, kad „Deepseek“ yra gerai pritaikytas įvairioms matematinėms problemoms, kurioms reikia tiesmukiškų samprotavimų.
- „Aime 2024“ daugiausia dėmesio skiria pažangioms, daugiapakopėms problemoms, kurioms reikalinga gilesnė matematinė įžvalga ir samprotavimai. Stiprus „Deepseek-R1“ pasirodymas čia rodo, kad jis taip pat gali spręsti sudėtingesnius matematinius iššūkius.

Kartu šie rezultatai pabrėžia „Deepseek-R1“ universalumą matematiniame samprotavime, galinčiame tiek plačiai aprėpti pagrindines sąvokas, tiek pažangų problemų sprendimą. Tai daro „Deepseeek-R1“ stiprų varžovą atliekant įvairias matematinių samprotavimo užduotis, pradedant nuo pagrindinių iki pažengusiųjų lygių.

Be to, „Deepseeek-R1“ kūrimo ir mokymo strategijos, tokios kaip tikrinamų mokymo duomenų ir efektyvių atlygio funkcijų generavimas, prisideda prie jo stipraus rezultatų per šiuos etalonus [2]. Šis požiūris leidžia „Deepseek-R1“ optimizuoti savo mokymo procesą, daugiausia dėmesio skiriant tam tikrų sričių, tokių kaip matematikos, našumo gerinimas, nereikalaujant per didelių skaičiavimo išteklių.

Citatos:
[1] https://huggingface.co/deepseek-ai/deepseek-r1
[2] https://www.geekwire.com/2025/deepseeks-new-model-shows-tat-ai-expertise-matter-matter-more than-compute-in-in-2025/
[3] https://www.byteplus.com/en/topic/404998
[4] https://www.vals.ai/benchmarks/math500-03-13-2025
[5] https://www.prompthub.us/blog/deepseek-r-1-model-oveview-and-how-it-ranks-against-openais-o1
[6] https://arxiv.org/html/2412.19437v1
[7] https://www.datacamp.com/blog/deepseek-r1
[8] https://www.vals.ai/benchmarks/aime-2025-03-11