DeepSeek vs Copilot：基准比较和功能

对哪些特定基准测试了哪些特定的基准和副驾驶测试

DeepSeek和Copilot已针对各种基准测试，展示了它们在不同领域的能力。

DeepSeek基准测试

DeepSeek，尤其是其R1模型，已在几个基准中进行了评估：

- 数学基准：DeepSeek R1在数学方面的表现强劲，在AIME 2024基准测试中得分79.8％，略高于OpenAI的O1-1217，为79.2％。在Math-500基准中，DeepSeek R1取得了令人印象深刻的97.3％，超过了Openai的O1-1217，速度为96.4％[3] [5]。

- 编码基准：在编码任务中，DeepSeek R1在CodeForces基准测试中获得了96.3％的竞争力，紧随Openai的O1-1217占96.6％的距离。在SWE Bench验证的基准测试中，DeepSeek R1得分为49.2％，略高于Openai的O1-1217，为48.9％[3] [5]。

- 一般知识基准：DeepSeek R1在GPQA钻石基准上得分为71.5％，以75.7％的速度落后于Openai的O1-1217。在MMLU基准测试中，DeepSeek R1的成绩达到90.8％，略低于Openai的O1-1217，为91.8％[3] [5]。

- 安全与安全：DeepSeek R1使用Harmbench基准测试了安全漏洞，其中包括网络犯罪和错误信息。该模型显示出100％的攻击成功率，表明与OpenAI的O1等其他模型相比，严重的安全问题[1]。

##副词基准

Copilot，特别是在Excel的背景下，已在面对面的比较中进行了针对Deep Seek的测试：

- Excel公式的创建：由于其对自动保存的要求，副驾驶在公式创建方面挣扎，而Deep Seek提供了更灵活的解决方案，从而在更少的尝试中解决了问题[2]。

- Excel公式说明：Copilot提供了基于语法的解释，而深处寻求对复杂配方的更清晰，更实用的细分，使其更加用户友好[2]。

尽管副本并未像在各种推理和编码任务中以与DeepSeek相同的方式进行广泛的基准测试，但它因其在编码援助方面的功能而被认可，尤其是在Microsoft环境中[4]。

引用：
[1] https://blogs.cisco.com/security/evaluation-security-risk-in--in-deepseek-and-there-frontier-rontier-rounation-models
[2] https://www.mrexcel.com/board/threads/excel-copilot-versus-versus-deep-seek-seek-head-to-head-head-episode-2671.1269554/
[3] https://www.datacamp.com/blog/deepseek-r1
[4] https://dev.to/hanzla-baig/the-ultimate-showdown-chatgpt-vs-vs-deepseek-vs-gemini-vs-copilot-vs-vs-vs-vs-qwen-vs-vs-vs-vs-mistral-33kd
[5] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-in-rank-ranks-against-openais-o1
[6] https://www.reddit.com/r/localllama/comments/1i5q6b9/deepseekr1_and_distill_benchmarks_color_coded/
[7] https://theconversation.com/putting-deepseek-to-the-test-how-ist-performance-compares-compares-against-oger-the-ai-tools-248368
[8] https://azure.microsoft.com/en-us/blog/deepseek-r1-is-is-now-available-on-azure-ai-foundry-and-github/