Deepseek R1 Model Performance på AIME Benchmark - Sammenligning med Openai O1 og andre AI -modeller

Hvordan sammenligner DeepSeek's præstation på AIME 1 med andre AI -modeller

Deepseeks R1 -model viser en stærk præstation på den amerikanske Invitational Mathematics Examination (AIME) Benchmark, som er en prestigefyldt matematikkonkurrence for gymnasiestuderende. Her er en detaljeret sammenligning af Deepseek R1's præstation med andre AI -modeller på AIME:

1. Deepseek R1 vs. Openai O1: Deepseek R1 har vist konkurrencedygtige resultater på AIME med en score på 79,8% på AIME 2024, lidt foran Openai O1-1217 på 79,2% [9]. Imidlertid opnåede Openai O1 en højere score på 96,7% i en anden sammenligning, hvilket indikerede variation i ydelsesmetrikker eller versioner af de anvendte modeller [8]. Deepseek R1-Zero, en forløbermodel, scorede 71,0% på AIME 2024, som er lidt under Openai O1-0912 men over O1-mini [1].

2. Sammenligning med andre modeller: I en bredere sammenligning fungerede DeepSeek R1 godt, men var ikke topscorer. For eksempel indtog Openai O3 Mini den øverste placering med en nøjagtighed på 86,5% på AIME, efterfulgt af Deepseek R1 og O1 [2]. Dette antyder, at selvom Deepseek R1 er konkurrencedygtig, overgår det måske ikke altid de nyeste modeller som O3 Mini.

3. Performancevariabilitet: ydelsen af AI -modeller på AIME kan variere markant afhængigt af den specifikke version af testen. For eksempel fungerede modeller generelt bedre på de ældre AIME 2024 -spørgsmål sammenlignet med de nyere AIME 2025 -spørgsmål, muligvis på grund af inkluderingen af tidligere spørgsmål i deres træningsdata [2].

4. Ræsonnementsfunktioner: Deepseek R1's stærke præstation på AIME tilskrives dens avancerede ræsonnementsevne, som giver den mulighed for at tackle komplekse matematiske problemer effektivt. Imidlertid kan dens ydeevne falde, når de står over for varianter af spørgsmål, der kræver dybere logisk ræsonnement [7].

Generelt demonstrerer Deepseek R1 robust præstation på AIME, der konkurrerer tæt med andre topmodeller som Openai O1, skønt det måske ikke altid fører i enhver sammenligning. Dens open source natur og omkostningseffektivitet gør det til et attraktivt valg for udviklere, der ønsker at udnytte avancerede ræsonnementsfunktioner i matematik.

Citater:
)
[2] https://www.valals.ai/benchmarks/aime-2025-03-11
[3] https://www.vellum.ai/blog/analysis-openai-o1-vs-deepseek-r1
[4] https://artificialanalysis.ai/models/deepseek-r1
)
[6] https://www.byteplus.com/en/topic/386612
[7] https://www.reddit.com/r/localllama/comments/1ibxhwp/deepseekr1distillqwen32b_2024_aime_i_performance/
)
[9] https://www.datacamp.com/blog/deepseek-r1