„Deepseek-R1“ veikimas AIMO2 duomenų rinkinyje ir matematiniai etalonai

Kaip „DeepSeek-R1“ veikimas palyginamas su kitais AIMO2 duomenų rinkinio modeliais

„Deepseeek-R1“ veikimas AIMO2 duomenų rinkinyje nėra aiškiai išsamiai aprašytas turimos informacijos, tačiau mes galime daryti išvadą, kad jos galimybės, pagrįstos jo veikimu panašiuose matematiniuose etalonuose, ir patobulinimai, stebimi susijusiose duomenų rinkiniuose.

1. Matematinis našumas: „Deepseeek-R1“ parodė stiprų matematinių užduočių atlikimą, pasiekdamas 79,8% tikslumą AIME 2024 etalone ir 97,3% MATH-500 [1] [2] [5]. Tai rodo, kad labai moku spręsti sudėtingas matematines problemas.

2. AIMO2 duomenų rinkinys: Nors konkretūs AIMO2 rezultatai nepateikti, pastebimi pastebimai pagerėję našumą per uždaras, neskelbtus duomenų rinkinius, tokius kaip AIMO2, tai rodo, kad „DeepSeek-R1“ modeliai yra išskirtinai įgudę matematikoje [4]. AIMO2 duomenų rinkinys, būdamas matematikos konkurencija su problemomis, suskirstyta į AIME ir TJO sunkumų lygį, greičiausiai naudos iš „Deepseeek-R1“ pažangių matematinių samprotavimų galimybių.

3. Palyginimas su kitais modeliais: „Deepseeek-R1“ paprastai sutampa arba viršija tokių modelių kaip „Openai O1“ veikimą įvairiuose etalonuose [1] [2]. Tačiau konkrečių AIMO2 palyginimų nėra. Modelio efektyvumas ir greitis, dėka jo MOE architektūros, taip pat gali prisidėti prie geresnio atlikimo apdorojant sudėtingas matematines užduotis, palyginti su kitais modeliais [5] [6].

4. Distiliuoti modeliai: „Deepseek-R1“ distiliuoti modeliai, tokie kaip „Deepseeek-R1-Distill-QWEN-32B“, parodė įspūdingus rezultatus matematiniuose etalonuose, tokiuose kaip AIME 2024, pasiekę 72,6% praėjimo greitį [1]. Tai rodo, kad net distiliuotos „Deepseeek-R1“ versijos palaiko stiprias matematines galimybes, kurios galėtų gerai vertinti duomenų rinkinius, tokius kaip AIMO2.

Apibendrinant galima pasakyti, kad nors „Deepseeek-R1“ veiklos metrika AIMO2 duomenų rinkinyje nepateikiama, jo stiprūs veikimai panašiuose matematiniuose etalonuose ir susijusių duomenų rinkinių patobulinimai rodo, kad jis greičiausiai gerai veiktų AIMO2. Jos MOE architektūra ir efektyvumas taip pat apibūdina ją kaip konkurencinį modelį atliekant matematinių samprotavimo užduotis.

Citatos:
[1] https://huggingface.co/deepseek-ai/deepseek-r1
[2] https://www.datacamp.com/blog/deepseek-r1
[3] https://writesonic.com/blog/deepseek-vs-chatGpt
[4] https://www.reddit.com/r/localllama/comments/1ibxhwp/deepseekr1distillqwen32b_2024_aime_i_performance/
[5] https://writesonic.com/blog/deepseek-r1-review
[6] https://www.byteplus.com/en/topic/385090
[7] https://github.com/deepseek-ai/deepseek-r1
[8] https://www.reddit.com/r/localllama/comments/1i8rujw/notes_on_deepseek_r1_just_how_how_it_is_compared/