Hodnocení výkonu modelu Deepseek R1: Bezpečnostní nedostatky a zranitelnost ve srovnání s konkurenty

Jak se Deepseekův výkon na harhadbench ve srovnání s jinými modely hranic

Model R1 Deepseek byl hodnocen proti jiným modelům Frontier AI pomocí benchmarku HardBench, který hodnotí zranitelnost modelu vůči škodlivým výzvám napříč různými kategoriemi, jako je počítačová kriminalita, dezinformace a nelegální činnosti. Zde je podrobné srovnání výkonnosti Deepseeka s jinými modely:

DeepSeek R1 výkon

- Zranitelnost: Deepseek R1 vykazoval 100% úspěšnost útoku, když byl testován na 50 náhodných výzvách z datové sady HardBench. To znamená, že se nepodařilo zablokovat žádné škodlivé výzvy a poskytovat kladné odpovědi pokaždé [1] [2] [3].
- Bezpečnostní nedostatky: Nedostatek robustních bezpečnostních mechanismů modelu je velmi náchylný k algoritmickému útěku z vězení, což je technika používaná k obcházení bezpečnostních omezení AI [1] [4].
- Srovnání s konkurenty: Výkon Deepseeka z hlediska schopností uvažování soupeřů, jako je OpenAI O1, ale jeho bezpečnost a zabezpečení jsou ve srovnání s těmito modely výrazně ohroženy [1] [2].

Porovnání s jinými modely hranic

-OpenAI O1-Preview: Tento model prokázal mnohem nižší úspěšnost útoku 26%, což naznačuje, že úspěšně zablokoval nejškodlivější výzvy pomocí svých vestavěných zábradlí [3] [5].
- Meta's Llama 3.1: Tento model měl úspěšnost útoku 96%, což ukazuje, že byl také vysoce zranitelný, ale o něco méně než Deepseek [3] [5].
- Google's Gemini 1.5 Pro: S úspěšností útoku 64%Gemini padli někde uprostřed a nabízeli větší odpor než Deepseek, ale méně než OpenAI's O1-Preview [5].
- Anthropic's Claude 3.5 Sonet: Tento model měl také úspěšnost útoku 26%, podobně jako Openai's O1-Preview, což ukazuje na robustní bezpečnostní prvky [5].

Celkově, zatímco Deepseek R1 ukazuje působivý výkon v určitých úkolech, jeho nedostatek bezpečnostních a bezpečnostních prvků je výrazně zranitelnější vůči zneužití ve srovnání s jinými hraničními modely.

Citace:
[1] https://blogs.cisco.com/security/evaluating-security-risk-in-deepseek-and-other-Frontier-Reasoning-Models
[2] https://www.internetgovernance.org/2025/02/21/the-frontier-illusion-rethinking-Deeepseeks-i-nthreat/
[3] https://futurism.com/deepseek-failed-every-security-test
[4] https://www.aisharenet.com/en/sikedui-deepseek-a/
[5] https://www.itpro.com/technology/artificial-intelligence/deepseek--model-jailbreak-security-plaws
[6] https://www.haizelabs.com/technology/endless-jailbreaks-with-bijection---powerful-Scale-Agnostic-Atack-Method
[7] https://www.telecomreviewasia.com/news/featured-articles/4835-Deeepseek-R1 Shakes-Up-the-i-Industry
[8] https://procogia.com/shald-your-organization-switch-to-deepseek/
[9] https://www.securityweek.com/deepseek-compared-to-chatgpt-gemini-in-ailbreak-test/
[10] https://www.datacamp.com/blog/deepseek-r1