DeepSeek R1 Model Performance on Aime Benchmark - Sammenligning med Openai O1 og andre AI -modeller

Hvordan sammenligner DeepSeeks ytelse på AIME 1 med andre AI -modeller

DeepSeek's R1 -modell viser sterk ytelse på American Invitational Mathematics Examination (AIME) Benchmark, som er en prestisjetung matematikk -konkurranse for elever på videregående skole. Her er en detaljert sammenligning av DeepSeek R1s ytelse med andre AI -modeller på AIME:

1. DeepSeek R1 mot Openai O1: DeepSeek R1 har vist konkurrerende resultater på AIME, med en score på 79,8% på AIME 2024, litt foran Openai O1-1217 på 79,2% [9]. Openai O1 oppnådde imidlertid en høyere poengsum på 96,7% i en annen sammenligning, noe som indikerte variasjon i ytelsesmålinger eller versjoner av modellene som ble brukt [8]. DeepSeek R1-Zero, en forløpermodell, scoret 71,0% på AIME 2024, som er litt under Openai O1-0912, men over O1-mini [1].

2. Sammenligning med andre modeller: I en bredere sammenligning presterte DeepSeek R1 bra, men var ikke toppscorer. For eksempel tok Openai O3 Mini topplassen med en nøyaktighet på 86,5% på AIME, etterfulgt av DeepSeek R1 og O1 [2]. Dette antyder at selv om DeepSeek R1 er konkurransedyktig, kan det ikke alltid overgå de nyeste modellene som O3 Mini.

3. Resultatvariabilitet: ytelsen til AI -modeller på AIME kan variere betydelig avhengig av den spesifikke versjonen av testen. For eksempel presterte modeller generelt bedre på de eldre AIME 2024 spørsmålene sammenlignet med de nyere AIME 2025 -spørsmålene, muligens på grunn av inkludering av tidligere spørsmål i treningsdataene deres [2].

4. Resonnementsevner: DeepSeek R1s sterke ytelse på AIME tilskrives sine avanserte resonnementfunksjoner, som lar den takle komplekse matematiske problemer effektivt. Imidlertid kan ytelsen avta når de blir møtt med varianter av spørsmål som krever dypere logisk resonnement [7].

Totalt sett demonstrerer DeepSeek R1 robust ytelse på AIME, og konkurrerer tett med andre toppmodeller som Openai O1, selv om det kanskje ikke alltid fører i hver sammenligning. Dens åpen kildekode og kostnadseffektivitet gjør det til et attraktivt valg for utviklere som ønsker å utnytte avanserte resonnementfunksjoner i matematikk.

Sitasjoner:
[1] https://www.prompthub.us/blog/deepseek-1-model-overview-and-how-it-ranks-ainst-openais-o1
[2] https://www.vals.ai/benchmarks/aime-2025-03-11
[3] https://www.vellum.ai/blog/analysis-opnai- o1-vs-depseek-r1
[4] https://artificialanalysis.ai/models/deepseek-r1
[5] https://techcrunch.com/2025/01/27/deepseek-crain-its-reasoning-model-beats-openais-o1-oncain-benchmarks/
[6] https://www.byteplus.com/no/topic/386612
[7] https://www.reddit.com/r/localllama/comments/1ibxhwp/deepseekr1distillqwen32b_2024_aime_i_performance/
[8] https://www.techloy.com/deepseek-r1-v-opnai- o1-which-ai-model-is-retter/
[9] https://www.datacamp.com/blog/deepseek-r1