Deepseek R1 -mallin suorituskyky AIME -vertailuarvolla - vertailu OpenAi O1: n ja muiden AI -malleihin

Kuinka Deepseekin suorituskyky Aime 1: ssä verrataan muihin AI -malleihin

Deepseekin R1 -malli osoittaa vahvan suorituskyvyn American Invitational Mathematics Investication (AIME) -vertailuarvossa, joka on arvostettu matematiikkakilpailu lukiolaisille. Tässä on yksityiskohtainen vertailu Deepseek R1: n suorituskyvystä muiden AI: n AI -malleihin:

1. Deepseek R1 vs. OpenAi O1: Deepseek R1 on osoittanut kilpailukykyisiä tuloksia AIME: llä, pisteet 79,8% Aime 2024: llä, hieman edellä OpenAi O1-1217: tä 79,2%: lla [9]. OpenAi O1 saavutti kuitenkin korkeamman pistemäärän 96,7% toisessa vertailussa, mikä osoittaa suorituskykymittarien vaihtelun tai käytettyjen mallien versiot [8]. Deepseek R1-Zero, edeltäjämalli, sai 71,0% AIME 2024: llä, joka on hiukan alapuolella OpenAi O1-0912, mutta O1-MINI: n yläpuolella [1].

2. Esimerkiksi Openai O3 Mini otti kärkipaikan tarkkuudella 86,5% AIME: llä, jota seurasi Deepseek R1 ja O1 [2]. Tämä viittaa siihen, että vaikka DeepSek R1 on kilpailukykyinen, se ei välttämättä aina ylittää uusimpia malleja, kuten O3 MINI.

3. Suorituskyvyn vaihtelu: AI: n AI -mallien suorituskyky voi vaihdella merkittävästi testin tietyn version mukaan. Esimerkiksi mallit suoriutuivat yleensä paremmin vanhemmille AIME 2024 -kysymyksille verrattuna uudempiin Aime 2025 -kysymyksiin, mikä johtuu mahdollisesti aiempien kysymysten sisällyttämisestä heidän harjoitustietoihinsa [2].

4. Perustelomahdollisuudet: DeepSek R1: n vahva suorituskyky AIME: ssä johtuu sen edistyneistä päättelyominaisuuksista, jotka antavat sen ratkaisemaan monimutkaisia matemaattisia ongelmia tehokkaasti. Sen suorituskyky voi kuitenkin heikentyä, kun kohtaavat variantteja kysymyksistä, jotka vaativat syvempää loogista päättelyä [7].

Kaiken kaikkiaan Deepseek R1 osoittaa vankan suorituskyvyn AIME: llä, kilpailemalla tiiviisti muiden parhaiden mallien kanssa, kuten OpenAi O1, vaikka se ei välttämättä aina johda jokaisessa vertailussa. Sen avoimen lähdekoodin luonne ja kustannustehokkuus tekevät siitä houkuttelevan valinnan kehittäjille, jotka haluavat hyödyntää edistyneitä perusteluja matematiikassa.

Viittaukset:
.
[2] https://www.vals.ai/benchmarks/aime-2025-03-11
[3] https://www.vellum.ai/blog/analysis-openai-o1-vs-deepseek-R1
[4] https://artificialanalysis.ai/models/deepseek-R1
.
[6] https://www.byteplus.com/en/topic/386612
.
.
[9] https://www.datacamp.com/blog/deepseek-R1