Deepseek R1 -modellprestanda på AIME -benchmark - Jämförelse med OpenAI O1 och andra AI -modeller

Hur jämför Deepseeks prestanda på AIME 1 med andra AI -modeller

Deepseeks R1 -modell visar starka prestationer på den amerikanska inbjudningsmatematikundersökningen (AIME) Benchmark, som är en prestigefylld matematiktävling för gymnasieelever. Här är en detaljerad jämförelse av Deepseek R1: s prestanda med andra AI -modeller på AIME:

1. Deepseek R1 vs. OpenAI O1: Deepseek R1 har visat konkurrenskraftiga resultat på AIME, med en poäng på 79,8% på AIME 2024, något före OpenAI O1-1217 vid 79,2% [9]. OpenAI O1 uppnådde emellertid en högre poäng på 96,7% i en annan jämförelse, vilket indikerar variation i prestandametriker eller versioner av de använda modellerna [8]. Deepseek R1-Zero, en föregångsmodell, fick 71,0% på AIME 2024, som ligger något under OpenAI O1-0912 men över O1-mini [1].

2. Jämförelse med andra modeller: I en bredare jämförelse presterade Deepseek R1 bra men var inte toppscorer. Till exempel tog OpenAI O3 Mini topplatsen med en noggrannhet på 86,5% på AIME, följt av Deepseek R1 och O1 [2]. Detta antyder att även om Deepseek R1 är konkurrenskraftig, kanske det inte alltid överträffar de senaste modellerna som O3 Mini.

3. Prestandavariabilitet: Prestandan för AI -modeller på AIME kan variera avsevärt beroende på den specifika versionen av testet. Till exempel presterade modeller i allmänhet bättre på de äldre AIME 2024 -frågorna jämfört med de nyare AIME 2025 -frågorna, möjligen på grund av att tidigare frågor inkluderades i deras träningsdata [2].

4. Resoneringsfunktioner: Deepseek R1: s starka prestanda på AIME tillskrivs dess avancerade resonemang, vilket gör att den kan hantera komplexa matematiska problem effektivt. Emellertid kan dess prestanda minska när de står inför varianter av frågor som kräver djupare logiska resonemang [7].

Sammantaget visar Deepseek R1 robust prestanda på AIME och konkurrerar nära med andra toppmodeller som OpenAI O1, även om det kanske inte alltid leder i varje jämförelse. Dess öppna källkod och kostnadseffektivitet gör det till ett attraktivt val för utvecklare som vill utnyttja avancerade resonemang i matematik.

Citeringar:
]
[2] https://www.vals.ai/bencharks/aime-2025-03-11
[3] https://www.vellum.ai/blog/analysis-openai-o1-vs-deepseek-r1
[4] https://artificialanalysis.ai/models/deepseek-r1
]
[6] https://www.byteplus.com/en/topic/386612
[7] https://www.reddit.com/r/localllamama/comments/1ibxhwp/deepseekr1distillqwen32b_2024_aime_i_performance/
[8] https://www.techloy.com/deepseek-r1-v-openai-o1-which-ai-model-is-etter/
[9] https://www.datacamp.com/blog/deepseek-r1