Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon 对哪些特定基准测试了哪些特定的基准和副驾驶测试


对哪些特定基准测试了哪些特定的基准和副驾驶测试


DeepSeek和Copilot已针对各种基准测试,展示了它们在不同领域的能力。

DeepSeek基准测试

DeepSeek,尤其是其R1模型,已在几个基准中进行了评估:

- 数学基准:DeepSeek R1在数学方面的表现强劲,在AIME 2024基准测试中得分79.8%,略高于OpenAI的O1-1217,为79.2%。在Math-500基准中,DeepSeek R1取得了令人印象深刻的97.3%,超过了Openai的O1-1217,速度为96.4%[3] [5]。

- 编码基准:在编码任务中,DeepSeek R1在CodeForces基准测试中获得了96.3%的竞争力,紧随Openai的O1-1217占96.6%的距离。在SWE Bench验证的基准测试中,DeepSeek R1得分为49.2%,略高于Openai的O1-1217,为48.9%[3] [5]。

- 一般知识基准:DeepSeek R1在GPQA钻石基准上得分为71.5%,以75.7%的速度落后于Openai的O1-1217。在MMLU基准测试中,DeepSeek R1的成绩达到90.8%,略低于Openai的O1-1217,为91.8%[3] [5]。

- 安全与安全:DeepSeek R1使用Harmbench基准测试了安全漏洞,其中包括网络犯罪和错误信息。该模型显示出100%的攻击成功率,表明与OpenAI的O1等其他模型相比,严重的安全问题[1]。

##副词基准

Copilot,特别是在Excel的背景下,已在面对面的比较中进行了针对Deep Seek的测试:

- Excel公式的创建:由于其对自动保存的要求,副驾驶在公式创建方面挣扎,而Deep Seek提供了更灵活的解决方案,从而在更少的尝试中解决了问题[2]。

- Excel公式说明:Copilot提供了基于语法的解释,而深处寻求对复杂配方的更清晰,更实用的细分,使其更加用户友好[2]。

尽管副本并未像在各种推理和编码任务中以与DeepSeek相同的方式进行广泛的基准测试,但它因其在编码援助方面的功能而被认可,尤其是在Microsoft环境中[4]。

引用:
[1] https://blogs.cisco.com/security/evaluation-security-risk-in--in-deepseek-and-there-frontier-rontier-rounation-models
[2] https://www.mrexcel.com/board/threads/excel-copilot-versus-versus-deep-seek-seek-head-to-head-head-episode-2671.1269554/
[3] https://www.datacamp.com/blog/deepseek-r1
[4] https://dev.to/hanzla-baig/the-ultimate-showdown-chatgpt-vs-vs-deepseek-vs-gemini-vs-copilot-vs-vs-vs-vs-qwen-vs-vs-vs-vs-mistral-33kd
[5] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-in-rank-ranks-against-openais-o1
[6] https://www.reddit.com/r/localllama/comments/1i5q6b9/deepseekr1_and_distill_benchmarks_color_coded/
[7] https://theconversation.com/putting-deepseek-to-the-test-how-ist-performance-compares-compares-against-oger-the-ai-tools-248368
[8] https://azure.microsoft.com/en-us/blog/deepseek-r1-is-is-now-available-on-azure-ai-foundry-and-github/