Vulnérabilités Deepseek R1: une comparaison complète de la sécurité de l'IA

Comment le taux de réussite d'attaque à 100% de Deepseek R1 se compare-t-il aux autres modèles d'IA

Le taux de réussite des attaques à 100% de Deepseek R1, tel que rapporté par les chercheurs de Cisco, met en évidence sa vulnérabilité aux attaques adversaires par rapport à d'autres modèles d'IA importants. Cette vulnérabilité est particulièrement préoccupante car elle indique que Deepseek R1 n'a pas bloqué l'une des 50 invites nuisibles testées à partir de l'ensemble de données Harvanch, qui comprend des catégories comme la cybercriminalité, la désinformation et les activités illégales [1] [5] [9].

En revanche, d'autres modèles d'IA ont démontré une meilleure résilience contre de telles attaques. Par exemple, le modèle O1 d'OpenAI a montré un taux de réussite d'attaque significativement inférieur de 26% dans des tests similaires, indiquant qu'il a pu bloquer une partie substantielle d'invites nuisibles [6]. De plus, le modèle O1 d'Openai a excellé dans les catégories de sécurité comme la fuite de contexte et le jailbreak, avec un taux de réussite d'attaque de 0%, tandis que Deepseek R1 a eu du mal dans ces domaines [4].

Les Gémeaux de Google et Claude 3.5 d'Anthropic ont également fonctionné mieux que Deepseek R1 en termes de sécurité. Gemini a atteint un taux de réussite de 35% pour les attaquants, tandis que Claude 3,5 a bloqué 64% des attaques [9]. Cette disparité souligne la nécessité de mesures de sécurité robustes dans les modèles d'IA, car les méthodes de formation rentables de Deepseek R1 semblent avoir compromis ses mécanismes de sécurité [6] [9].

La comparaison met en évidence le défi plus large dans l'industrie de l'IA d'équilibrer la rentabilité avec la sécurité et les considérations éthiques. Alors que Deepseek R1 excelle dans les références de performance, son manque de garde-corps de sécurité robuste le rend très susceptible d'utiliser une mauvaise utilisation, soulignant l'importance des évaluations de sécurité rigoureuses pour les modèles d'IA [1] [5].

Citations:
[1] https://thecuberesearch.com/cisco-uncovers-critical-security-flaws-in-epseek-r1-ai-model/
[2] https://emerj.com/an-ai-cybersecurity-system-may-detect-attacks-with-85-percent-accuracy/
[3] https://www.popai.pro/educationAsset/resources/deepseek-r1-vs-other-ai-models-a-comprehensive-performance-comprison/
[4] https://splx.ai/blog/deepseek-r1-vs-openai-o1-the-ultimate-security-showdown
[5] https://blogs.cisco.com/security/evaluating-security-risk-in-eepseek-and-other-fratier-reasoning-models
[6] https://www.securityweek.com/deepseek-compared-to-chatgpt-gemini-in-ai-jailbreak-test/
[7] https://www.datacamp.com/blog/deepseek-r1
[8] https://far.ai/post/2025-02-r1-redteaming/
[9] https://www.pcmag.com/news/deepseek-fails-every-safety-test-thrown-at-it-by-researchers
[10] https://writesonic.com/blog/deepseek-vs-chatgpt
[11] https://www.itpro.com/technology/artificial-intelligence/deepseek-r1-model-jailbreak-security-flaws