DeepSeek R1 modell teljesítménye az AIME Benchmark -on - Összehasonlítás az Openai O1 és más AI modellekkel

Hogyan hasonlítja össze a DeepSeek teljesítményét az AIME 1 -en más AI modellekkel

A DeepSeek R1 modellje erőteljes teljesítményt mutat az American Invitational Mathematics vizsga (AIME) referenciaértékén, amely egy rangos matematikai verseny a középiskolás diákok számára. Itt található a DeepSeek R1 teljesítményének részletes összehasonlítása az AIME más AI modellekkel:

1. DeepSeek R1 vs. Openai O1: A DeepSeek R1 versenyképes eredményeket mutatott az AIME-n, 79,8% -os pontszámmal az AIME 2024-en, kissé meghaladva az OpenAI O1-1217-et, 79,2% -ot [9]. Az Openai O1 azonban egy másik összehasonlításban magasabb pontszámot ért el, jelezve a teljesítménymutatók vagy a használt modellek verzióinak variabilitását [8]. A DeepSeek R1-Zero, egy prekurzor modell, 71,0% -ot tett ki az AIME 2024-en, amely kissé az OpenAI O1-0912 alatt van, de az O1-MINI felett [1].

2. Összehasonlítás más modellekkel: Szélesebb összehasonlításban a DeepSeek R1 jól teljesített, de nem volt a gólszerző. Például az Openai O3 Mini 86,5% -os pontossággal vette át az első helyet az AIME -n, majd a DeepSeek R1 és O1 [2]. Ez azt sugallja, hogy bár a DeepSeek R1 versenyképes, lehet, hogy nem mindig haladja meg a legújabb modelleket, mint például az O3 Mini.

3. Teljesítmény -variabilitás: Az AI modellek teljesítménye az AIME -nál jelentősen változhat, a teszt specifikus változatától függően. Például, a modellek általában jobban teljesítettek a régebbi AIME 2024 kérdésekben, összehasonlítva az újabb AIME 2025 kérdésekkel, valószínűleg annak köszönhetően, hogy a korábbi kérdések beillesztették képzési adataikba [2].

4. Az érvelési képességek: A DeepSeek R1 erőteljes teljesítményét az AIME -n keresztül a fejlett érvelési képességeknek tulajdonítják, amelyek lehetővé teszik, hogy hatékonyan kezelje a komplex matematikai problémákat. Teljesítménye azonban csökkenhet, ha olyan kérdések változataival szembesül, amelyek mélyebb logikai érvelést igényelnek [7].

Összességében a DeepSeek R1 robusztus teljesítményt mutat az AIME -n, szorosan versenyezve más felső modellekkel, mint például az Openai O1, bár ez nem mindig vezet minden összehasonlítás során. Nyílt forrású jellege és költséghatékonysága vonzó választást jelent azoknak a fejlesztőknek, akik a matematika fejlett érvelési képességeit kívánják kihasználni.

Idézetek:
[1] https://www.prompthub.us/blog/deepseek-r--model-overview-and-how-it-tanks-against-openais-o1
[2] https://www.vals.ai/benchmarks/Aime-2025-03-11
[3] https://www.vellum.ai/blog/analysis-openai-o1-vs-deepseek-r1
[4] https://articialanalysis.ai/models/deepseek-r1
[5] https://techcrunch.com/2025/01/27/deepseek-caims-its-reason-model-beats-openais-o1-on-ceral-fenchmarks/
[6] https://www.byteplus.com/en/topic/386612
[7] https://www.reddit.com/r/localllama/comments/1ibxhwp/deepseekr1distillqwen32b_2024_AIMe_I_PERFORMANCE/
[8] https://www.techloy.com/deepseek-r1-v-openai-o1-hich-ai-model-is-better/
[9] https://www.datacamp.com/blog/deepseek-r1