Performanță DeepSeek-R1 pe matematică-500 și AIME 2024 de referință

Cum se compară performanța Deepseek-R1 pe Benchmark Math-500 cu performanța sa pe Benchmark AIME 2024

Deepseek-R1 demonstrează o performanță puternică în diferite repere matematice, în special la testele Math-500 și AIME 2024. Iată o comparație detaliată a performanței sale pe aceste două repere:

MATH-500 Benchmark

-Performanță: DeepSeek-R1 obține o trecere impresionantă@1 scor de 97,3% pe etalonul Math-500. Acest scor indică faptul că modelul este extrem de eficient în rezolvarea diverselor probleme matematice la nivel de liceu care necesită raționament detaliat [1] [4].
-Comparație cu OpenAI O1-1217: Deepseek-R1 depășește ușor OpenAI O1-1217, care marchează 96,4% pe același referință. Acest lucru sugerează că Deepseek-R1 are o ușoară margine în gestionarea tipurilor de probleme matematice prezentate în Math-500 [4] [6].

AIME 2024 Benchmark

- Performanță: pe referința AIME 2024, scoruri DeepSeek-R1 79,8%. Acest referință evaluează raționamentul matematic avansat în mai multe etape, iar performanța Deepseek-R1 indică faptul că este capabil să gestioneze probleme matematice complexe [1] [4].
-Comparație cu OpenAI O1-1217: Deepseek-R1, de asemenea, depășește ușor OpenAI O1-1217 pe AIME 2024, care înscrie 79,2%. Această diferență marginală sugerează că ambele modele sunt extrem de competitive în sarcinile avansate de raționament matematic [4] [6].

Diferențe cheie între repere

-Complexitatea problemei: AIME 2024 se concentrează pe probleme matematice mai avansate și mai complexe în comparație cu Math-500, care include o gamă mai largă de probleme la nivel de liceu.
-Performanța modelului: Deepseek-R1 arată o rată de succes mai mare la Math-500 decât la AIME 2024, ceea ce indică faptul că este mai eficient în rezolvarea unei game largi de probleme matematice, mai degrabă decât în cele avansate.

În general, DeepSeek-R1 demonstrează capacități de raționament matematic puternic, cu un avantaj notabil în rezolvarea unei varietăți de probleme matematice, așa cum se vede în etalonul Math-500 și performanța competitivă în sarcinile avansate de raționament matematic, așa cum este evaluat de AIME 2024.

Citări:
[1] https://huggingface.co/deepseek-AI/deepseek-r1
[2] https://artificialanalysis.ai/models/deepseek-r1
[3] https://blog.promptlayer.com/openai-O3-vs-deepseek-r1-an-analysis-of-reasoning-models/
[4] https://www.datacamp.com/blog/deepseek-r1
[5] https://arcprize.org/blog/r1-zero-r1-nsults-analize
[6] https://www.inferless.com/learn/the-ultimate-guide-to-deepseek-models
[7] https://techcrunch.com/2025/01/27/DeepSeek-Claims-its-Reasoning-Model-Beats-Openais-O1-on-Certor-Benchmarks/
[8] https://www.geekwire.com/2025/deepseeks-new-model-shows-that-AI-expertise-might-matter-more-than-compute-in-2025/