Deepseek R1 Model uspešnost na AIME Benchmark - primerjava z OpenAI O1 in drugimi modeli AI

Kako se uspešnost Deepseeka na AIME 1 primerja z drugimi modeli AI

Deepseekov model R1 prikazuje močno uspešnost na ameriškem invitationalnem izpitu matematike (AIME), ki je prestižno matematično tekmovanje za srednješolce. Tu je podrobna primerjava uspešnosti Deepseek R1 z drugimi modeli AI na AIME:

1. Deepseek R1 proti OpenAI O1: Deepseek R1 je na AIME pokazal konkurenčne rezultate, z oceno 79,8% na AIME 2024, nekoliko pred OpenAI O1-1217 pri 79,2% [9]. Vendar je OpenAI O1 v drugi primerjavi dosegel višjo oceno 96,7%, kar kaže na spremenljivost meritev uspešnosti ali različice uporabljenih modelov [8]. Deepseek R1-Zero, predhodni model, je na AIME 2024 dosegel 71,0%, kar je nekoliko pod OpenAI O1-0912, vendar nad O1-Mini [1].

2. Primerjava z drugimi modeli: V širši primerjavi je Deepseek R1 dobro deloval, vendar ni bil najboljši strelec. Na primer, OpenAI O3 Mini je na AIME zasedel prvo mesto z natančnostjo 86,5%, sledila sta Deepseek R1 in O1 [2]. To kaže, da čeprav je Deepseek R1 konkurenčen, morda ne bo vedno presegel najnovejših modelov, kot je O3 Mini.

3. Spremenljivost uspešnosti: Učinkovitost modelov AI na AIME se lahko močno razlikuje glede na določeno različico testa. Na primer, modeli so se na splošno bolje izvajali pri starejših vprašanjih AIME 2024 v primerjavi z novejšimi vprašanji AIME 2025, morda zaradi vključitve prejšnjih vprašanj v svoje podatke o usposabljanju [2].

4. Sklep zmogljivosti: Močna uspešnost Deepseek R1 na AIME je pripisana njegovim naprednim zmogljivostim sklepanja, ki mu omogočajo učinkovito reševanje kompleksnih matematičnih problemov. Vendar se lahko njegova uspešnost zmanjša, če se sooči z različicami vprašanj, ki zahtevajo globlje logično sklepanje [7].

Na splošno Deepseek R1 prikazuje robustne zmogljivosti na AIME in tesno tekmuje z drugimi vrhunskimi modeli, kot je OpenAI O1, čeprav v vsaki primerjavi morda ne bo vedno vodil. Zaradi odprtokodne narave in stroškovne učinkovitosti je privlačna izbira za razvijalce, ki želijo izkoristiti napredne zmogljivosti sklepanja v matematiki.

Navedbe:
[1] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-Openais-o1
[2] https://www.vals.ai/benchmarks/aime-2025-03-11
[3] https://www.vellum.ai/blog/analysis-openai-o1-vs-deepseek-r1
[4] https://artifialanalysis.ai/models/deepseek-r1
[5] https://techcrunch.com/2025/01/27/deepseek-calaims-its-reasoning-model--penais-o1-on-on-cuter-veter-vechmarks/
[6] https://www.byteplus.com/sl/topic/386612
[7] https://www.reddit.com/r/localllama/comments/1ibxhwp/deepseekr1distillqwen32b_2024_aime_i_performance/
[8] https://www.techloy.com/deepseek-r1-v-penai-o1-which-ai-model-is-better/
[9] https://www.datacamp.com/blog/deepseek-r1