Výkonnosť modelu Deepseek R1 na AIME Benchmark - Porovnanie s OpenAI O1 a ďalšími modelmi AI

Ako porovnáva výkon spoločnosti Deepseek na AIME 1 s inými modelmi AI

Model spoločnosti Deepseek R1 demonštruje silný výkon v referenčnej hodnote americkej invitačnej matematickej skúšky (AIME), ktorá je prestížnou matematickou súťažou pre študentov stredných škôl. Tu je podrobné porovnanie výkonu Deepseek R1 s ďalšími modelmi AI v AIME:

1. Deepseek R1 vs. OpenAI O1: Deepseek R1 preukázal konkurenčné výsledky v AIME, so skóre 79,8% na AIME 2024, mierne pred OpenAI O1-1217 pri 79,2% [9]. OpenAI O1 však dosiahol vyššie skóre 96,7% v inom porovnaní, čo naznačuje variabilitu metrií výkonnosti alebo verzií použitých modelov [8]. Deepseek R1-Zero, prekurzorový model, získal 71,0% na AIME 2024, čo je mierne pod OpenAI O1-0912, ale nad O1-mini [1].

2. Porovnanie s inými modelmi: V širšom porovnaní sa Deepseek R1 daril dobre, ale nebol najlepším strelcom. Napríklad OpenAI O3 Mini sa umiestnil na prvom mieste s presnosťou 86,5% v AIME, nasledovali Deepseek R1 a O1 [2]. To naznačuje, že zatiaľ čo Deepseek R1 je konkurencieschopný, nemusí vždy prekonať najnovšie modely, ako je O3 Mini.

3. Variabilita výkonnosti: Výkon modelov AI v AIME sa môže výrazne líšiť v závislosti od konkrétnej verzie testu. Napríklad, modely sa vo všeobecnosti dosahovali lepšie na starších otázkach AIME 2024 v porovnaní s novšími otázkami AIME 2025, pravdepodobne kvôli zahrnutiu predchádzajúcich otázok do svojich údajov o odbornej príprave [2].

4. Schopnosti zdôvodnenia: Silný výkon spoločnosti Deepseek R1 v AIME sa pripisuje svojim pokročilým schopnostiam zdôvodnenia, ktoré jej umožňujú efektívne riešiť zložité matematické problémy. Jeho výkon sa však môže znížiť, keď čelia variantom otázok, ktoré si vyžadujú hlbšie logické zdôvodnenie [7].

Celkovo Deepseek R1 demonštruje robustný výkon v AIME, ktorý úzko konkuruje ostatným najlepším modelom, ako je OpenAI O1, hoci pri každom porovnaní nemusí vždy viesť. Vďaka svojej otvorenej povahe a nákladovej efektívnosti je atraktívnou voľbou pre vývojárov, ktorí chcú využiť pokročilé schopnosti zdôvodnenia v matematike.

Citácie:
[1] https://www.prompthub.us/blog/deepseek-r-1-model-model-wow-and-how-it----------- ranks-against-openais-o1
[2] https://www.vals.ai/benchmarks/aime-2025-03-11
[3] https://www.vellum.ai/blog/analysis-openai-o1-vs-deepseek-r1
[4] https://artificialanalysis.ai/models/deepseek-r1
[5] https://techcrunch.com/2025/01/27/
[6] https://www.byteplus.com/en/topic/386612
[7] https://www.reddit.com/r/localllama/comments/1ibxhwp/deepseekr1distillqwen32b_2024_aime_i_performance/
[8] https://www.techloy.com/deepseek-r1-v-openai-o1-wich-ai-model-is-better/
[9] https://www.datacamp.com/blog/deepseek-r1