Deepseek und Copilot wurden gegen verschiedene Benchmarks getestet und zeigen ihre Fähigkeiten in verschiedenen Bereichen.
Deepseek Benchmarks
Deepseek, insbesondere sein R1 -Modell, wurde über mehrere Benchmarks bewertet:
. In der Math-500-Benchmark erreichte Deepseek R1 beeindruckende 97,3%und übertraf Openai O1-1217 bei 96,4%[3] [5].
- Codierung von Benchmarks: Bei Codierungsaufgaben erreichte Deepseek R1 einen wettbewerbsfähigen 96,3% auf dem Codeforces-Benchmark, nachdem OpenAI O1-1217 bei 96,6% genau nachgekommen war. Auf dem verifizierten Benchmark der SWE-Bench erzielte Deepseek R1 49,2%, etwas vor OpenAs O1-1217 bei 48,9%[3] [5].
- Allgemeine Kenntnisse Benchmarks: Deepseek R1 erzielte 71,5% auf der GPQA Diamond Benchmark, die O1-1217 von Openai bei 75,7% zurückblieb. Auf der MMLU-Benchmark erreichte Deepseek R1 90,8%, etwas hinter OpenAs O1-1217 bei 91,8%[3] [5].
- Sicherheit und Sicherheit: Deepseek R1 wurde unter Verwendung des Harmbench -Benchmarks auf Sicherheitslücken getestet, das Kategorien wie Cyberkriminalität und Fehlinformationen umfasst. Das Modell zeigte eine 100% ige Erfolgsquote, was im Vergleich zu anderen Modellen wie dem O1 von OpenAI erhebliche Sicherheitsbedenken hinweist [1].
Copilot Benchmarks
Copilot, insbesondere im Kontext von Excel, wurde in einem Kopf-an-Kopf-Vergleich gegen tiefe Suche getestet:
- Erstellung von Excel -Formel: Copilot hatte aufgrund ihrer Anforderung an automatische Speicherung mit der Erstellung der Formel zu kämpfen, während Deep -Such flexiblere Lösungen lieferte und Probleme in weniger Versuchen löst [2].
-Excel-Formel Erläuterung: Copilot bot syntaxbasierte Erklärungen, während Deep Seek klarere, praktischere Aufschlüsse komplexer Formeln lieferte, wodurch es benutzerfreundlicher wurde [2].
Während Copilot nicht ausgiebig auf die gleiche Weise wie Deepseek über verschiedene Argumentations- und Codierungsaufgaben bewertet wurde, ist sie für seine Fähigkeiten bei der Codierungshilfe anerkannt, insbesondere in Microsoft -Umgebungen [4].
Zitate:
[1] https://blogs.cisco.com/security/evaluating-security-risk-indeepseek-and-other-frontier-rasoning-models
[2] https://www.mrexcel.com/board/threads/excel-copilot-verus-deep-seek-head-toad-episode-2671.1269554/
[3] https://www.datacamp.com/blog/deepseek-r1
[4] https://dev.to/hannzla-baig/the-ultimate-showdown-chatgpt-vs-tepseek-vs ---Gemini-vs-copilot-vs-qwen-vs-mistral-33kd
[5] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-o1
[6] https://www.reddit.com/r/localllama/comments/1i5q6b9/deepseekr1_and_distilled_benchmarks_color_coded/
[7] https://theconversation.com/puting-teepseek-the-test-how-it-performance-compares-against-other-ai-tools-248368
[8] https://azure.microsoft.com/en-us/blog/deepseek-r1-is-now-availle-on-azure-ai-foundry-and-github/