„Deepseeek R1“ modelio veikimas AIME etalone - palyginimas su „Openai O1“ ir kitais AI modeliais

Kaip „Deepseek“ pasirodymas AIME 1 palyginamas su kitais AI modeliais

„Deepseek“ R1 modelis parodo tvirtus Amerikos kvietimo matematikos egzamino (AIME) etalono, kuris yra prestižinis matematikos konkursas vidurinių mokyklų studentams, rezultatus. Čia pateiktas išsamus „Deepseeek R1“ našumo palyginimas su kitais AI modeliais AIME:

1. „Deepseek R1“ ir „Openai O1“: „Deepseek R1“ parodė AIME konkurencinius rezultatus-79,8%-79,8%-„Aime 2024“, šiek tiek aplenkdamas „Openai O1-1217“-79,2% [9]. Tačiau „Openai O1“ pasiekė aukštesnį 96,7% balą, palyginti su kitais palyginimais, tai rodo naudojamų modelių našumo metrikos kintamumą ar versijas [8]. „Deepseek R1-Zero“, pirmtako modelis, „Aime 2024“ surinko 71,0%, kuris yra šiek tiek mažesnis už „Openai O1-0912“, bet virš O1-Mini [1].

2. Palyginimas su kitais modeliais: Platesniu palyginimu „Deepseek R1“ sekėsi gerai, tačiau nebuvo svarbiausias įvartis. Pavyzdžiui, „Openai O3 Mini“ užėmė aukščiausią vietą, o AIME tikslumas buvo 86,5%, po to sekė „Deepseeek R1“ ir „O1“ [2]. Tai rodo, kad nors „Deepseek R1“ yra konkurencingas, jis gali ne visada pralenkti naujausius modelius, tokius kaip „O3 Mini“.

3. Našumo kintamumas: AI modelių veikimas AIME gali labai skirtis priklausomai nuo konkrečios testo versijos. Pavyzdžiui, modeliai paprastai geriau atliko senesnius AIME 2024 klausimus, palyginti su naujesniais AIME 2025 klausimais, galbūt dėl to, kad į jų mokymo duomenis įtraukė ankstesnius klausimus [2].

4. Priėmimo galimybės: Stiprus „Deepseek R1“ AIME rezultatas priskiriamas jo pažangioms samprotavimo galimybėms, kurios leidžia efektyviai spręsti sudėtingas matematines problemas. Tačiau jos našumas gali sumažėti, kai susiduria su klausimų variantais, kuriems reikia gilesnių loginių samprotavimų [7].

Apskritai, „Deepseek R1“ demonstruoja tvirtą AIME rezultatą, glaudžiai konkuruodamas su kitais geriausiais modeliais, tokiais kaip „Openai O1“, nors tai ne visada gali būti kiekviename palyginime. Dėl atviro kodo pobūdžio ir ekonominio efektyvumo jis yra patrauklus pasirinkimas kūrėjams, norintiems panaudoti pažangias matematikos samprotavimo galimybes.

Citatos:
[1] https://www.prompthub.us/blog/deepseek-r-1-model-oveview-and-how-it-ranks-against-openais-o1
[2] https://www.vals.ai/benchmarks/aime-2025-03-11
[3] https://www.vellum.ai/blog/analysis-openai-o1-vs-deepseek-r1
[4] https://artifialanalysis.ai/models/deepseek-r1
[5] https://techcrunch.com/2025/01/27/deepseek-claims-its-reasoning-model-peats-openais-o1-on-cither-benchmarks/
[6] https://www.byteplus.com/en/topic/386612
[7] https://www.reddit.com/r/localllama/comments/1ibxhwp/deepseekr1distillqwen32b_2024_aime_i_performance/
[8] https://www.techloy.com/deepseek-r1-v-openai-o1-which-ai-model-is-better/
[9] https://www.datacamp.com/blog/deepseek-r1