Deepseek-R1 gegen OpenAI O1-1217: Benchmark-Leistungsvergleich

Wie ist die Leistung von Deepseek-R1 im SWE vergleichbar mit seiner Leistung im Codeforces-Benchmark

Deepseek-R1 zeigt eine starke Leistung in verschiedenen Benchmarks, darunter sowohl die verifizierten SWE- als auch die Codeforces-Benchmarks. Hier ist ein detaillierter Vergleich seiner Leistung zu diesen beiden Benchmarks:

SWE verifizierte Benchmark

Auf dem verifizierten SWE-Benchmark erzielt Deepseek-R1 eine Punktzahl von 49,2%, was bei 48,9%der O1-1217 von OpenAI etwas vor OpenAI liegt [2] [3]. Dieser Benchmark bewertet das Denken eines Modells in Software -Engineering -Aufgaben und konzentriert sich auf Aufgaben wie Codeüberprüfung und Debugging. Während Deepseek-R1 eine gute Leistung erbringt, bewegt sich Claude-3,5-SONNET-1022 leicht mit einer Punktzahl von 50,8%[3].

Codeforces Benchmark

Im Gegensatz dazu zeichnet sich Deepseek-R1 auf den Codeforces-Benchmark aus und erreicht ein Perzentil von 96,3 und eine ELO-Bewertung von 2029 [3] [4]. Dies stellt es zu den Top-Performen in wettbewerbsfähiger Codierung ein und ist nach OpenAI O1-1217 genau, was mit einem Perzentil von 96,6 und einer Bewertung von 2061 führt [3]. Der CODEFORCES -Benchmark bewertet die Codierung und die algorithmischen Argumentationsfunktionen eines Modells, indem er seine Leistung mit menschlichen Teilnehmern verglichen.

Vergleich

Während Deepseek-R1 an beiden Benchmarks wettbewerbsfähig abschneidet, ist seine Leistung auf dem Benchmark Codeforces-Benchmark stärker ausgeprägt. Dies deutet darauf hin, dass Deepseek-R1 besonders in der Lösung von algorithmischen und kodierenden Herausforderungen gelöst ist, die strukturierter sind und präzise logische Argumente erfordern. Bei der SWE verifizierten Benchmark, während es gut abschneidet, ist es im Vergleich zu seiner Leistung bei Codeforces etwas weniger dominant. Dies weist darauf hin, dass Deepseek-R1 möglicherweise eher für Aufgaben geeignet ist, die ein algorithmisches Denken erfordern, als für diejenigen, die sich auf Softwareüberprüfung und Debuggen konzentrieren.

Insgesamt zeigt Deepseek-R1 die Vielseitigkeit bei verschiedenen Arten von Codierungs- und Argumentationsaufgaben, aber seine Stärken sind bei algorithmischer Problemlösung deutlicher.

Zitate:
[1] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-o1
[2] https://www.datacamp.com/blog/deepseek-r1
[3] https://blog.getbind.co/2025/01/23/deepseek-r1-vs-gpt-o1-vs-claude-3-5-sonnet-which-is-best-coding/
[4] https://techcrunch.com/2025/01/27/deepseek-claim-it-rasasasasasoning-model-beats-openais-o1-on-certher-Benchmarks/
[5] https://forum.effectivealTruism.org/posts/d3ifbmyu5gte8xriz/is-leepseek-r1-already-better- than-o3-when-in-inference-costs
[6] https://blog.promptlayer.com/openai-o3-vs-teepseek-r1-an-analysis-of-reasoning-models/
[7] https://huggingface.co/deepseek-ai/deepseek-r1
[8] https://arxiv.org/html/2501.12948v1