Deepseek R1 Model výkon na AIME Benchmark - srovnání s OpenAI O1 a dalšími modely AI

Jak je výkon Deepseeka na AIME 1 ve srovnání s jinými modely AI

Model R1 Deepseek ukazuje silný výkon na benchmarku American Invitational Mathematics Examise (AIME), což je prestižní soutěž matematiky pro studenty středních škol. Zde je podrobné srovnání výkonu Deepseek R1 s dalšími modely AI na AIME:

1. Deepseek R1 vs. OpenAI O1: Deepseek R1 ukázal konkurenční výsledky na AIME, se skóre 79,8% na AIME 2024, mírně před OpenAI O1-1217 při 79,2% [9]. OpenAI O1 však v jiném srovnání dosáhl vyššího skóre 96,7%, což naznačuje variabilitu v metrikách výkonu nebo verzí použitých modelů [8]. Deepseek R1-Zero, prekurzorový model, zaznamenal 71,0% na AIME 2024, který je mírně pod OpenAI O1-0912, ale nad O1-Mini [1].

2. Srovnání s jinými modely: V širším srovnání se Deepseek R1 vedl dobře, ale nebyl nejlepším střelcem. Například OpenAI O3 Mini vzal nejlepší místo s přesností 86,5% na AIME, následoval Deepseek R1 a O1 [2]. To naznačuje, že zatímco Deepseek R1 je konkurenceschopný, nemusí vždy překonat nejnovější modely, jako je O3 Mini.

3. Variabilita výkonu: Výkon AI modelů na AIME se může významně lišit v závislosti na konkrétní verzi testu. Například modely obecně fungovaly lépe u starších otázek AIME 2024 ve srovnání s novějšími otázkami AIME 2025, pravděpodobně kvůli zahrnutí předchozích otázek do jejich tréninkových údajů [2].

4. schopnosti uvažování: Silný výkon Deepseek R1 na AIME je přičítán jeho pokročilým schopnostem, které mu umožňují efektivně řešit složité matematické problémy. Jeho výkon se však může snížit, když čelí variantám otázek, které vyžadují hlubší logické uvažování [7].

Celkově Deepseek R1 ukazuje robustní výkon na AIME, úzce konkuruje jiným top modelům, jako je OpenAI O1, ačkoli to nemusí vždy vést v každém srovnání. Díky jeho otevřené povaze a efektivitě nákladů z něj činí atraktivní volbu pro vývojáře, kteří chtějí využívat pokročilé schopnosti uvažování v matematice.

Citace:
[1] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-it-ranks-against-openais-o1
[2] https://www.vals.ai/benchmarks/aime-2025-03-11
[3] https://www.vellum.ai/blog/analysis-openai-o1-vs-deepseek-r1
[4] https://artificialanalysis.ai/models/deepseek-r1
[5] https://techcrunch.com/2025/01/27/deepseek-taims-its-leasoning-model-beats-openais-o1-on-cire-benchmarks/
[6] https://www.byteplus.com/en/topic/386612
[7] https://www.reddit.com/r/localllama/comments/1ibxhwp/deepSeeKr1distillqwen32b_2024_aime_i_performance/
[8] https://www.techloy.com/deepseek-r1-v-openai-o1-which-ai-model-is-better/
[9] https://www.datacamp.com/blog/deepseek-r1