DeepSeek R1 modeļa veiktspēja AIME etalonā - salīdzinājums ar Openai O1 un citiem AI modeļiem

Kā DeepSeek sniegums AIME 1 salīdzina ar citiem AI modeļiem

DeepSeek R1 modelis parāda spēcīgu sniegumu Amerikas Invitational matemātikas eksāmena (AIME) etalonā, kas ir prestižs matemātikas konkurss vidusskolēniem. Šeit ir detalizēts DeepSeek R1 veiktspējas salīdzinājums ar citiem AI modeļiem AIME:

1. DeepSeek R1 pret Openai O1: DeepSeek R1 ir parādījis konkurences rezultātus par AIME, ar rezultātu 79,8% AIME 2024, nedaudz apsteidzot Openai O1-1217 pie 79,2% [9]. Tomēr Openai O1 citā salīdzinājumā sasniedza augstāku punktu skaitu 96,7%, norādot uz izmantoto modeļu mainīgumu vai izmantoto modeļu versijām [8]. DeepSeek R1-Zero, prekursora modelis, ieguva 71,0% AIME 2024, kas ir nedaudz zem Openai O1-0912, bet virs O1-Mini [1].

2. Salīdzinājums ar citiem modeļiem: Plašākā salīdzinājumā DeepSeek R1 darbojās labi, bet nebija labākais vārtsargs. Piemēram, Openai O3 Mini ieņēma labāko vietu ar precizitāti 86,5% AIME, kam sekoja DeepSeek R1 un O1 [2]. Tas liek domāt, ka, lai arī DeepSeek R1 ir konkurētspējīgs, tas ne vienmēr var pārspēt jaunākos modeļus, piemēram, O3 Mini.

3. Veiktspējas mainīgums: AI modeļu veiktspēja AIME var ievērojami atšķirties atkarībā no konkrētās testa versijas. Piemēram, modeļi parasti labāk darbojās vecākiem AIME 2024 jautājumiem, salīdzinot ar jaunākajiem AIME 2025 jautājumiem, iespējams, tāpēc, ka viņu apmācības datos iekļauj iepriekšējos jautājumus [2].

4. Argumentācijas spējas: DeepSeek R1 spēcīgais AIME sniegums tiek attiecināts uz tās uzlabotajām spriešanas iespējām, kas tai ļauj efektīvi risināt sarežģītas matemātiskas problēmas. Tomēr tā veiktspēja var samazināties, saskaroties ar jautājumu variantiem, kuriem nepieciešama dziļāka loģiska argumentācija [7].

Kopumā DeepSeek R1 demonstrē spēcīgu sniegumu AIME, cieši konkurējot ar citiem labākajiem modeļiem, piemēram, Openai O1, lai gan tas ne vienmēr var izraisīt katrā salīdzinājumā. Tā atvērtā koda raksturs un izmaksu efektivitāte padara to par pievilcīgu izvēli izstrādātājiem, kuri vēlas izmantot progresīvas argumentācijas iespējas matemātikā.

Atsauces:
[1.]
[2] https://www.valals.ai/benchmarks/aime-2025-03-11
[3] https://www.vellum.ai/blog/analysis-openai-o1-vs-depseek-r1
[4] https://artificialanalysis.ai/models/deepseek-r1
.
[6] https://www.byteplus.com/en/topic/386612
[7] https://www.reddit.com/r/localllama/comments/1ibxhwp/deepseekr1distillqwen32b_2024_aime_i_performance/
[8] https://www.techloy.com/deepseek-r1-v-openai-o1-which-ai-model-is-better/
[9] https://www.datacamp.com/blog/deepseek-r1