Deepseek R1 -Modellleistung auf Aime Benchmark - Vergleich mit OpenAI O1 und anderen KI -Modellen

Wie ist Deepseeks Leistung auf Aime 1 mit anderen KI -Modellen verglichen?

Das R1 -Modell von Deepseek zeigt eine starke Leistung bei der amerikanischen Einladung Mathematics Examination (AIME) Benchmark, die ein prestigeträchtiger Mathematikwettbewerb für Schüler ist. Hier ist ein detaillierter Vergleich der Leistung von Deepseek R1 mit anderen KI -Modellen auf Aime:

1. Deepseek R1 gegen OpenAI O1: Deepseek R1 hat wettbewerbsfähige Ergebnisse bei Aime mit einer Punktzahl von 79,8% für Aime 2024 gezeigt, etwas vor OpenAI O1-1217 bei 79,2% [9]. OpenAI O1 erzielte jedoch in einem weiteren Vergleich einen höheren Wert von 96,7%, was auf eine Variabilität der Leistungsmetriken oder -versionen der verwendeten Modelle hinweist [8]. Deepseek R1-Zero, ein Vorläufermodell, erzielte bei Aime 2024 71,0%, was leicht unter OpenAI O1-0912, jedoch über o1-mini liegt [1].

2. Vergleich mit anderen Modellen: In einem breiteren Vergleich war Deepseek R1 eine gute Leistung, war aber nicht der Top -Torschütze. Zum Beispiel belegte Openai O3 Mini mit einer Genauigkeit von 86,5% auf AIME den ersten Platz, gefolgt von Deepseek R1 und O1 [2]. Dies deutet darauf hin, dass Deepseek R1 zwar wettbewerbsfähig ist, die neuesten Modelle wie O3 Mini möglicherweise nicht immer übertreffen.

3. Leistungsvariabilität: Die Leistung von KI -Modellen auf AIMe kann je nach spezifischer Version des Tests erheblich variieren. Beispielsweise haben Modelle im Vergleich zu den neueren Aime 2025 -Fragen im Allgemeinen besser bei den älteren Aime 2024 -Fragen abgewickelt, möglicherweise aufgrund der Einbeziehung früherer Fragen in ihre Trainingsdaten [2].

4. Argumentationsfunktionen: Die starke Leistung von Deepseek R1 bei Aime wird auf seine fortgeschrittenen Argumentationsfunktionen zurückgeführt, die es ihm ermöglichen, komplexe mathematische Probleme effektiv anzugehen. Die Leistung kann jedoch sinken, wenn sie mit Fragen von Fragen konfrontiert sind, die ein tieferes logisches Denken erfordern [7].

Insgesamt zeigt Deepseek R1 eine robuste Leistung bei Aime und konkurriert eng mit anderen Topmodellen wie OpenAI O1, obwohl es möglicherweise nicht immer in jedem Vergleich führt. Die Open-Source-Natur und die Kosteneffizienz machen es zu einer attraktiven Wahl für Entwickler, die fortschrittliche Argumentationsfunktionen in der Mathematik nutzen möchten.

Zitate:
[1] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-o1
[2] https://www.vals.ai/benchmarks/aime-2025-03-11
[3] https://www.vellum.ai/blog/analysis-openai-o1-vs-teepseek-r1
[4] https://artificialanalysis.ai/models/deepseek-r1
[5] https://techcrunch.com/2025/01/27/deepseek-claim-it-rasasasasasoning-model-beats-openais-o1-on-certifchmarks/
[6] https://www.byteplus.com/en/topic/386612
[7] https://www.reddit.com/r/localllama/comportment/1ibxhwp/deepseekr1distillqwen32b_2024_aime_i_performance/
[8] https://www.techloy.com/deepseek-r1-v-openai-o1-whosai-model-is-better/
[9] https://www.datacamp.com/blog/deepseek-r1