Deepseek R1 Model Performance pe Benchmark AIME - Comparație cu OpenAI O1 și alte modele AI

Cum se compară performanțele Deepseek pe AIME 1 cu alte modele AI

Modelul R1 Deepseek demonstrează o performanță puternică pe referința American Invitațional Mathematics Examing (AIME), care este o competiție de matematică prestigioasă pentru elevii de liceu. Iată o comparație detaliată a performanței Deepseek R1 cu alte modele AI pe AIME:

1. Deepseek R1 vs. OpenAI O1: Deepseek R1 a arătat rezultate competitive pe AIME, cu un scor de 79,8% pe AIME 2024, ușor înaintea OpenAI O1-1217 la 79,2% [9]. Cu toate acestea, OpenAI O1 a obținut un scor mai mare de 96,7% într -o altă comparație, ceea ce indică o variabilitate a valorilor de performanță sau a versiunilor modelelor utilizate [8]. Deepseek R1-Zero, un model precursor, a obținut 71,0% pe AIME 2024, care este ușor sub OpenAI O1-0912, dar peste O1-Mini [1].

2. Comparație cu alte modele: Într -o comparație mai largă, Deepseek R1 a avut performanțe bune, dar nu a fost cel mai mare marcator. De exemplu, Openai O3 Mini a ocupat primul loc cu o precizie de 86,5% pe AIME, urmată de Deepseek R1 și O1 [2]. Acest lucru sugerează că, deși Deepseek R1 este competitiv, este posibil să nu depășească întotdeauna cele mai noi modele precum O3 Mini.

3. Variabilitatea performanței: performanța modelelor AI pe AIM poate varia semnificativ în funcție de versiunea specifică a testului. De exemplu, modelele s -au comportat în general mai bine la întrebările AIME 2024 mai vechi, comparativ cu cele mai noi întrebări AIME 2025, eventual datorită includerii întrebărilor anterioare în datele lor de instruire [2].

4. Capacități de raționament: performanța puternică a lui Deepseek R1 pe AIME este atribuită capacităților sale avansate de raționament, care îi permit să abordeze eficient problemele matematice complexe. Cu toate acestea, performanța sa poate scădea atunci când se confruntă cu variante de întrebări care necesită un raționament logic mai profund [7].

În general, Deepseek R1 demonstrează o performanță robustă pe AIME, concureând îndeaproape cu alte modele de top precum OpenAI O1, deși este posibil să nu conducă întotdeauna în fiecare comparație. Natura sa open-source și eficiența costurilor îl fac o alegere atractivă pentru dezvoltatorii care doresc să utilizeze capacități avansate de raționament în matematică.

Citări:
[1] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-O1
[2] https://www.vals.ai/benchmarks/aime-2025-03-11
[3] https://www.vellum.ai/blog/analysis-openai-o1-vs-deepseek-r1
[4] https://artificialanalysis.ai/models/deepseek-r1
[5] https://techcrunch.com/2025/01/27/DeepSeek-Claims-its-Reasoning-Model-Beats-Openais-O1-on-Cort-Benchmarks/
[6] https://www.byteplus.com/en/topic/386612
[7] https://www.reddit.com/r/localllama/comments/1ibxhwp/deepseekr1distillqwen32b_2024_aime_i_performance/
[8] https://www.techloy.com/deepseek-r1-v-openai-o1-which-AI-model-is-better/
[9] https://www.datacamp.com/blog/deepseek-r1