Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon 与其他边境模型相比,DeepSeek在Harmbench上的表现如何


与其他边境模型相比,DeepSeek在Harmbench上的表现如何


DeepSeek的R1模型已使用Harmbench基准对其他边界AI模型进行了评估,该模型评估了模型在网络犯罪,错误信息和非法活动等各个类别的有害提示中的脆弱性。这是DeepSeek的性能与其他模型的详细比较:

DeepSeek R1性能

- 漏洞:DeepSeek R1在针对Harmbench数据集的50个随机提示进行测试时,攻击成功率100%。这意味着它无法阻止任何有害提示,每次提供肯定的回应[1] [2] [3]。
- 安全缺陷:模型缺乏强大的安全机制使其非常容易受到算法越狱的影响,这是一种用于绕过AI安全限制的技术[1] [4]。
- 与竞争对手进行比较:DeepSeek在推理能力竞争对手(如Openai的O1)方面的性能,但与这些模型相比,其安全性和安全性受到了严重损害[1] [2]。

##与其他边境模型进行比较

- OpenAI O1-preiview:该模型的攻击成功率为26%,表明它使用其内置护栏成功阻止了最有害的提示[3] [5]。
-Meta的Llama 3.1:该模型的攻击成功率为96%,表明它也很脆弱,但比DeepSeek [3] [5]稍少。
-Google的Gemini 1.5 Pro:双子座的攻击成功率为64%,在中间的某个地方,具有比DeepSeek更具阻力,但比Openai的O1-preview [5]更少。
- 人类的Claude 3.5十四行诗:该模型的攻击成功率为26%,类似于Openai的O1-preiview,表明强大的安全功能[5]。

总体而言,尽管DeepSeek R1在某些任务中表现出令人印象深刻的表现,但其缺乏安全性和安全功能使与其他边境模型相比,它更容易受到滥用。

引用:
[1] https://blogs.cisco.com/security/evaluation-security-risk-in--in-deepseek-and-there-frontier-rontier-rounation-models
[2] https://www.internetgovernance.org/2025/02/21/the-frontier-illusion-rethinking-deepseeks-ai-threat/
[3] https://futurism.com/deepseek-failed-every-security-test
[4] https://www.aisharenet.com/en/sikedui-deepseek-a/
[5] https://www.itpro.com/technology/artcover-intelligence/deepseek-r1-model-jail-jailbreak-security-flaws
[6] https://www.haizelabs.com/technology/endless-jailbreaks-with-bijection-learning-a powerful-scale-scale-agnostic-Attack-method
[7] https://www.telecomreviewasia.com/news/featured-articles/4835-deepseek-r1-shakes-shakes-the-ai-industry
[8] https://procogia.com/should-your-organization-switch-to-deepseek/
[9] https://www.securityweek.com/deepseek-compared-to-chatgpt-gemini-in-i-in-ai-jail-jail-test/
[10] https://www.datacamp.com/blog/deepseek-r1