Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Welche spezifischen Benchmarks wurden Deepseek und Copilot getestet


Welche spezifischen Benchmarks wurden Deepseek und Copilot getestet


Deepseek und Copilot wurden gegen verschiedene Benchmarks getestet und zeigen ihre Fähigkeiten in verschiedenen Bereichen.

Deepseek Benchmarks

Deepseek, insbesondere sein R1 -Modell, wurde über mehrere Benchmarks bewertet:

. In der Math-500-Benchmark erreichte Deepseek R1 beeindruckende 97,3%und übertraf Openai O1-1217 bei 96,4%[3] [5].

- Codierung von Benchmarks: Bei Codierungsaufgaben erreichte Deepseek R1 einen wettbewerbsfähigen 96,3% auf dem Codeforces-Benchmark, nachdem OpenAI O1-1217 bei 96,6% genau nachgekommen war. Auf dem verifizierten Benchmark der SWE-Bench erzielte Deepseek R1 49,2%, etwas vor OpenAs O1-1217 bei 48,9%[3] [5].

- Allgemeine Kenntnisse Benchmarks: Deepseek R1 erzielte 71,5% auf der GPQA Diamond Benchmark, die O1-1217 von Openai bei 75,7% zurückblieb. Auf der MMLU-Benchmark erreichte Deepseek R1 90,8%, etwas hinter OpenAs O1-1217 bei 91,8%[3] [5].

- Sicherheit und Sicherheit: Deepseek R1 wurde unter Verwendung des Harmbench -Benchmarks auf Sicherheitslücken getestet, das Kategorien wie Cyberkriminalität und Fehlinformationen umfasst. Das Modell zeigte eine 100% ige Erfolgsquote, was im Vergleich zu anderen Modellen wie dem O1 von OpenAI erhebliche Sicherheitsbedenken hinweist [1].

Copilot Benchmarks

Copilot, insbesondere im Kontext von Excel, wurde in einem Kopf-an-Kopf-Vergleich gegen tiefe Suche getestet:

- Erstellung von Excel -Formel: Copilot hatte aufgrund ihrer Anforderung an automatische Speicherung mit der Erstellung der Formel zu kämpfen, während Deep -Such flexiblere Lösungen lieferte und Probleme in weniger Versuchen löst [2].

-Excel-Formel Erläuterung: Copilot bot syntaxbasierte Erklärungen, während Deep Seek klarere, praktischere Aufschlüsse komplexer Formeln lieferte, wodurch es benutzerfreundlicher wurde [2].

Während Copilot nicht ausgiebig auf die gleiche Weise wie Deepseek über verschiedene Argumentations- und Codierungsaufgaben bewertet wurde, ist sie für seine Fähigkeiten bei der Codierungshilfe anerkannt, insbesondere in Microsoft -Umgebungen [4].

Zitate:
[1] https://blogs.cisco.com/security/evaluating-security-risk-indeepseek-and-other-frontier-rasoning-models
[2] https://www.mrexcel.com/board/threads/excel-copilot-verus-deep-seek-head-toad-episode-2671.1269554/
[3] https://www.datacamp.com/blog/deepseek-r1
[4] https://dev.to/hannzla-baig/the-ultimate-showdown-chatgpt-vs-tepseek-vs ---Gemini-vs-copilot-vs-qwen-vs-mistral-33kd
[5] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-o1
[6] https://www.reddit.com/r/localllama/comments/1i5q6b9/deepseekr1_and_distilled_benchmarks_color_coded/
[7] https://theconversation.com/puting-teepseek-the-test-how-it-performance-compares-against-other-ai-tools-248368
[8] https://azure.microsoft.com/en-us/blog/deepseek-r1-is-now-availle-on-azure-ai-foundry-and-github/