Deepseek R1 mudeli jõudlus AIME võrdlusalusel - võrdlus OpenAI O1 ja teiste AI mudelitega

Kuidas võrrelda Deepseeki jõudlust AIME 1 -l teiste AI -mudelitega

Deepseeki R1 mudel demonstreerib tugevat jõudlust Ameerika kutse matemaatika eksami (AIME) võrdlusaluse osas, mis on mainekas matemaatikavõistlus keskkooliõpilastele. Siin on üksikasjalik võrdlus Deepseek R1 jõudluse kohta teiste AI -mudelitega AIME -ga:

1. Deepseek R1 vs OpenAi O1: Deepseek R1 on AIME-l näidanud konkurentsitulemusi, AIME 2024 tulemus on 79,8%, pisut ees OpenAI O1-1217 juures 79,2% -l [9]. Kuid OpenAI O1 saavutas teises võrdluses kõrgema skoori 96,7%, mis näitab kasutatud mudelite jõudluse mõõdikute või versioonide varieeruvust [8]. Deepseek R1-Zero, eelkäija mudel, viskas AIME 2024-l 71,0%, mis on pisut madalam OpenAI O1-0912, kuid üle O1-Mini [1].

2. Võrdlus teiste mudelitega: laiema võrdluse korral toimis Deepseek R1 hästi, kuid polnud parim väravakütt. Näiteks asus OpenAi O3 Mini esikohale AIME täpsusega 86,5%, millele järgnesid Deepseek R1 ja O1 [2]. See viitab sellele, et kuigi Deepseek R1 on konkurentsivõimeline, ei pruugi see alati edestada uusimaid mudeleid nagu O3 Mini.

3. jõudluse varieeruvus: AI -mudelite jõudlus AIME -l võib sõltuvalt testi konkreetsest versioonist märkimisväärselt erineda. Näiteks toimisid mudelid vanemate AIME 2024 küsimuste korral võrreldes uuema AIME 2025 küsimusega, mis võib olla tingitud varasemate küsimuste lisamisest nende koolitusandmesse [2].

4. Põhjendusvõimalused: Deepseek R1 tugev jõudlus AIME -le omistatakse selle täiustatud mõttekäikudele, mis võimaldavad tal tõhusalt keerulisi matemaatilisi probleeme lahendada. Selle jõudlus võib siiski langeda, kui seisavad silmitsi küsimuste variantidega, mis nõuavad sügavamat loogilist mõttekäiku [7].

Üldiselt demonstreerib Deepseek R1 tugevat jõudlust AIME -le, konkureerides tihedalt teiste tippmudelitega, näiteks OpenAI O1, ehkki see ei pruugi alati igas võrdluses viia. Selle avatud lähtekoodiga olemus ja kulutõhusus muudavad selle atraktiivseks valikuks arendajatele, kes soovivad kasutada matemaatika täiustatud mõttekäiku.

Tsitaadid:
]
[2] https://www.vals.ai/benchmarks/aime-2025-03-11
]
[4] https://artificialanalysis.ai/models/deepseek-r1
]
[6] https://www.byteplus.com/en/topic/386612
]
]
[9] https://www.datacamp.com/blog/deepseek-r1