Deepseek-R1 Performance na MATH-500 in AIME 2024 merila merila

Kako je uspešnost Deepseek-R1 na referenčni meri Math-500 v primerjavi z njegovo uspešnostjo na referenčnem vrednosti AIME 2024

Deepseek-R1 prikazuje močno uspešnost na različnih matematičnih merilih, zlasti na testih MATH-500 in AIME 2024. Tu je podrobna primerjava njegovih uspešnosti na teh dveh meriloh:

MATH-500 RAVERMARMAM

-Performance: Deepseek-R1 dosega impresivno oceno@1 na 97,3% na referenčni meri Math-500. Ta rezultat kaže, da je model zelo učinkovit pri reševanju različnih matematičnih težav na srednji šoli, ki zahtevajo podrobno sklepanje [1] [4].
-Primerjava z OpenAI O1-1217: Deepseek-R1 rahlo presega OpenAI O1-1217, ki na istem referenčnem merilu doseže 96,4%. To kaže, da ima Deepseek-R1 rahlo prednost pri ravnanju z vrstami matematičnih problemov, predstavljenih v MATH-500 [4] [6].

aime 2024

- Uspešnost: Na referenčnem merilu AIME 2024 je Deepseek-R1 dosegel 79,8%. To referenco ocenjuje napredno večstopenjsko matematično sklepanje, uspešnost Deepseek-R1 pa kaže, da je sposobna ravnati s kompleksnimi matematičnimi težavami [1] [4].
-Primerjava z OpenAI O1-1217: Deepseek-R1 tudi rahlo presega OpenAI O1-1217 na AIME 2024, ki doseže 79,2%. Ta mejna razlika kaže, da sta oba modela zelo konkurenčna pri napredovanih nalogah matematičnega sklepanja [4] [6].

Ključne razlike med merilniki

-Kompleksnost problemov: AIME 2024 se osredotoča na naprednejše in zapletene matematične težave v primerjavi z MATH-500, ki vključuje širši razpon težav na visoki šoli.
-Uspešnost modela: Deepseek-R1 kaže višjo stopnjo uspešnosti na MATH-500 kot na AIME 2024, kar kaže, da je učinkovitejši pri reševanju širokega spektra matematičnih problemov in ne le naprednih.

Na splošno Deepseek-R1 prikazuje močne zmogljivosti matematičnega sklepanja z opazno prednostjo pri reševanju različnih matematičnih problemov, kot je prikazano v referenčni meri Math-500, in konkurenčno uspešnost pri naprednih nalogah matematičnega sklepanja, ki jih je ocenil AIME 2024.

Navedbe:
[1] https://huggingface.co/deepseek-ai/deepseek-r1
[2] https://artifialanalysis.ai/models/deepseek-r1
[3] https://blog.promplayer.com/openai-o3-vs-deepseek-r1-an-analysis-of-reasoning-models/
[4] https://www.datacamp.com/blog/deepseek-r1
[5] https://arcprize.org/blog/r1-zero-r1-results-analiza
[6] https://www.inferless.com/learn/the-ultimate-guide-to-epeepseek-models
[7] https://techcrunch.com/2025/01/27/deepseek-calaims-its-reasoning-model--penais-o1-on-on-cuter-bechmarksh/
[8] https://www.geekwire.com/2025/deepseeks-new-model-shows-that-ai-expertise-might-matter-more-han-compute-in-2025/