Deepseek-R1-Benchmark-Leistungsvergleich: SWE verifiziert VS Codeforces

Wie ist die Leistung von Deepseek-R1 auf der SWE-Verifizierung im Vergleich zu seiner Leistung im Codeforces-Benchmark

Deepseek-R1 zeigt eine starke Leistung in verschiedenen Benchmarks, einschließlich der SWE-verifizierten und Codeforces-Benchmarks. Hier ist ein detaillierter Vergleich seiner Leistung zu diesen beiden Benchmarks:

SWE verifizierte Benchmark

- Leistung: Deepseek-R1 erzielte eine Punktzahl von 49,2% für den SWE-verifizierten Benchmark, der die Argumentation in Software-Engineering-Aufgaben bewertet. Diese Punktzahl liegt leicht vor OpenAI O1-1217 von 48,9%, aber leicht hinter Claude-3,5-SONNET-1022s 50,8% [2] [3].
- Task Focus: Der SWE -verifizierte Benchmark konzentriert sich auf Aufgaben im Zusammenhang mit der Softwareverifizierung und fordert das Modell auf, seine Fähigkeit zu demonstrieren, über Software -Engineering -Konzepte zu argumentieren.

Codeforces Benchmark

-Leistung: Bei der Codeforces-Benchmark erreichte Deepseek-R1 eine Perzentil-Rangliste von 96,3 und eine ELO-Bewertung von 2029. Dies stellt es in das oberste Perzentil der Teilnehmer, obwohl es leicht hinter OpenAI O1-1217 liegt, was einen Perzentil von 96,6 und eine EO-Bewertung von 2061 erzielte [2] [3].
- Task Focus: Der Codeforces -Benchmark bewertet die Codierung und das algorithmische Argumentationsfähigkeiten eines Modells, indem er seine Leistung mit menschlichen Teilnehmern bei Wettbewerbsbekenntnissen im Wettbewerb verglichen.

Zusammenfassend lässt sich sagen, dass Deepseek-R1 bei beiden Benchmarks wettbewerbsfähig ist, eine stärkere relative Leistung auf dem Benchmark Codeforces-Benchmark zeigt, wo es bei den Teilnehmern sehr hoch ist. Bei der SWE-verifizierten Benchmark ist seine Leistung jedoch auch stark, aber etwas weniger wettbewerbsfähig als einige andere Modelle wie Claude-3,5-SONNET-1022. Insgesamt zeigt Deepseek-R1 robuste Funktionen sowohl bei Coding- als auch bei Software-Überprüfungsaufgaben.

Zitate:
[1] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-o1
[2] https://www.datacamp.com/blog/deepseek-r1
[3] https://blog.getbind.co/2025/01/23/deepseek-r1-vs-gpt-o1-vs-claude-3-5-sonnet-which-is-best-coding/
[4] https://techcrunch.com/2025/01/27/deepseek-claim-it-rasasasasasoning-model-beats-openais-o1-on-certher-Benchmarks/
[5] https://forum.effectivealTruism.org/posts/d3ifbmyu5gte8xriz/is-leepseek-r1-already-better- than-o3-when-in-inference-costs
[6] https://blog.promptlayer.com/openai-o3-vs-teepseek-r1-an-analysis-of-reasoning-models/
[7] https://huggingface.co/deepseek-ai/deepseek-r1
[8] https://arxiv.org/html/2501.12948v1