Deepseek R1 -modelprestaties op AIME Benchmark - Vergelijking met OpenAI O1 en andere AI -modellen

Hoe verhoudt de prestaties van Deepseek op AIME 1 zich tot andere AI -modellen

Het R1 -model van Deepseek toont sterke prestaties op de benchmark van de American Invitational Mathematics Examination (AIME), een prestigieuze wiskundewedstrijd voor middelbare scholieren. Hier is een gedetailleerde vergelijking van de prestaties van Deepseek R1 met andere AI -modellen op AIME:

1. Deepseek R1 vs. Openai O1: Deepseek R1 heeft concurrerende resultaten getoond op AIME, met een score van 79,8% op AIME 2024, iets voor Openai O1-1217 op 79,2% [9]. OpenAI O1 behaalde echter een hogere score van 96,7% in een andere vergelijking, hetgeen duidt op variabiliteit in prestatiemetrieken of versies van de gebruikte modellen [8]. Deepseek R1-Zero, een voorlopermodel, scoorde 71,0% op AIME 2024, dat iets onder Openai O1-0912 is maar boven O1-Mini [1].

2. Vergelijking met andere modellen: in een bredere vergelijking presteerde Deepseek R1 goed, maar was niet de topscorer. Openai O3 Mini nam bijvoorbeeld de eerste plek in met een nauwkeurigheid van 86,5% op AIME, gevolgd door Deepseek R1 en O1 [2]. Dit suggereert dat hoewel Deepseek R1 competitief is, het misschien niet altijd beter presteert dan de nieuwste modellen zoals O3 Mini.

3. Prestatievariabiliteit: de prestaties van AI -modellen op AIME kunnen aanzienlijk variëren, afhankelijk van de specifieke versie van de test. Modellen presteerden bijvoorbeeld over het algemeen beter op de oudere AIME 2024 -vragen in vergelijking met de nieuwere vragen van AIME 2025, mogelijk vanwege de opname van eerdere vragen in hun trainingsgegevens [2].

4. Redeneermogelijkheden: de sterke prestaties van Deepseek R1 op aime worden toegeschreven aan de geavanceerde redeneermogelijkheden, waardoor het complexe wiskundige problemen effectief kan aanpakken. De prestaties ervan kunnen echter afnemen wanneer ze worden geconfronteerd met varianten van vragen die een diepere logische redenering vereisen [7].

Over het algemeen demonstreert Deepseek R1 robuuste prestaties op AIME en concurreren nauw met andere topmodellen zoals Openai O1, hoewel het misschien niet altijd in elke vergelijking leidt. De open-source aard en kostenefficiëntie maken het een aantrekkelijke keuze voor ontwikkelaars die geavanceerde redeneermogelijkheden in de wiskunde willen benutten.

Citaten:
[1] https://www.prompthub.us/blog/deepseek-r-re-model-overview-and-how-it-ranks-Against-Openais-o1
[2] https://www.vals.ai/benchmarks/aime-2025-03-11
[3] https://www.vellum.ai/blog/analysis-openai-o-vs-deepseek-r1
[4] https://artificialanalysis.ai/models/deepseek-r1
[5] https://techcrunch.com/2025/01/27/deepseek-claims-its-radening-model-beats-penais-o1-on-certain-bankmarks/
[6] https://www.byteplus.com/en/topic/386612
[7] https://www.reddit.com/r/localllama/comments/1ibxhwp/deepseekr1distillqwen32b_2024_aime_i_performance/
[8] https://www.techloy.com/deepseek-r1-v-openai-o1-which-ai-model-is-better/
[9] https://www.datacamp.com/blog/deepseek-r1