„Deepseek“ pasirodymas tiek „Math-500“, tiek „Aime 2024“ etalose pabrėžia tvirtas matematinių samprotavimo galimybes. Štai kaip jo našumas ant šių etalonų papildo vienas kitą:
Math-500 etalonas
„Deepseek-R1“ puikiai atspindi „Math-500“ etaloną, kurio įspūdingas tikslumas yra 97,3%, šiek tiek pranoksta „Openai O1-1217“ rezultatą 96,4%[4] [7]. Šis etalonas išbando įvairių aukšto lygio matematinių problemų modelius, kuriems reikalingi išsamūs samprotavimai. Stiprus „Deepseek-R1“ rezultatas rodo, kad jis labai tiksliai sutvarkė daugybę matematinių koncepcijų.AIME 2024 Enchmark
„Aime 2024“ etalone, kuriame įvertinamas pažengęs daugiapakopis matematinis samprotavimas, „Deepseeek-R1“ pasiekia 79,8%leidimo normą, šiek tiek aplenkdamas „Openai O1-1217“ 79,2%[7]. Šis etalonas sutelktas į sudėtingesnes ir sudėtingesnes matematines problemas, palyginti su „Math-500“. „Deepseek-R1“ pasirodymas čia parodo savo sugebėjimą efektyviai spręsti pažangias matematinio samprotavimo užduotis.papildomas spektaklis
Papildomas „Deepseek“ pasirodymo apie šiuos etalonus pobūdis yra skirtingi jų dėmesio centrai:-„Math-500“ pabrėžia plačią matematinių koncepcijų aprėptį vidurinėje mokykloje, kur „Deepseeek-R1“ rodo išskirtinį tikslumą. Tai rodo, kad „Deepseek“ yra gerai pritaikytas įvairioms matematinėms problemoms, kurioms reikia tiesmukiškų samprotavimų.
- „Aime 2024“ daugiausia dėmesio skiria pažangioms, daugiapakopėms problemoms, kurioms reikalinga gilesnė matematinė įžvalga ir samprotavimai. Stiprus „Deepseek-R1“ pasirodymas čia rodo, kad jis taip pat gali spręsti sudėtingesnius matematinius iššūkius.
Kartu šie rezultatai pabrėžia „Deepseek-R1“ universalumą matematiniame samprotavime, galinčiame tiek plačiai aprėpti pagrindines sąvokas, tiek pažangų problemų sprendimą. Tai daro „Deepseeek-R1“ stiprų varžovą atliekant įvairias matematinių samprotavimo užduotis, pradedant nuo pagrindinių iki pažengusiųjų lygių.
Be to, „Deepseeek-R1“ kūrimo ir mokymo strategijos, tokios kaip tikrinamų mokymo duomenų ir efektyvių atlygio funkcijų generavimas, prisideda prie jo stipraus rezultatų per šiuos etalonus [2]. Šis požiūris leidžia „Deepseek-R1“ optimizuoti savo mokymo procesą, daugiausia dėmesio skiriant tam tikrų sričių, tokių kaip matematikos, našumo gerinimas, nereikalaujant per didelių skaičiavimo išteklių.
Citatos:
[1] https://huggingface.co/deepseek-ai/deepseek-r1
[2] https://www.geekwire.com/2025/deepseeks-new-model-shows-tat-ai-expertise-matter-matter-more than-compute-in-in-2025/
[3] https://www.byteplus.com/en/topic/404998
[4] https://www.vals.ai/benchmarks/math500-03-13-2025
[5] https://www.prompthub.us/blog/deepseek-r-1-model-oveview-and-how-it-ranks-against-openais-o1
[6] https://arxiv.org/html/2412.19437v1
[7] https://www.datacamp.com/blog/deepseek-r1
[8] https://www.vals.ai/benchmarks/aime-2025-03-11