Vulnerabilidades de Deepseek R1: una comparación integral de seguridad de IA

¿Cómo se compara la tasa de éxito de ataque del 100% de Deepseek R1 con otros modelos de IA?

La tasa de éxito de ataques del 100% de Deepseek R1, según lo informado por los investigadores de Cisco, destaca su vulnerabilidad a los ataques adversos en comparación con otros modelos de IA prominentes. Esta vulnerabilidad es particularmente preocupante porque indica que Deepseek R1 no pudo bloquear ninguna de las 50 indicaciones dañinas probadas desde el conjunto de datos Harmbench, que incluye categorías como delito cibernético, información errónea y actividades ilegales [1] [5] [9].

En contraste, otros modelos de IA han demostrado una mejor resistencia contra tales ataques. Por ejemplo, el modelo O1 de OpenAI mostró una tasa de éxito de ataque significativamente menor del 26% en pruebas similares, lo que indica que pudo bloquear una porción sustancial de indicaciones dañinas [6]. Además, el modelo O1 de OpenAI se destacó en categorías de seguridad como la fuga de contexto y el jailbreak, con una tasa de éxito de ataque del 0%, mientras que Deepseek R1 tuvo dificultades en estas áreas [4].

Géminis de Google y Claude 3.5 de Anthrope también funcionó mejor que Deepseek R1 en términos de seguridad. Géminis logró una tasa de éxito del 35% para los atacantes, mientras que Claude 3.5 bloqueó el 64% de los ataques [9]. Esta disparidad subraya la necesidad de medidas de seguridad sólidas en los modelos de IA, ya que los métodos de entrenamiento rentables de Deepseek R1 parecen haber comprometido sus mecanismos de seguridad [6] [9].

La comparación destaca el desafío más amplio en la industria de la IA de equilibrar la rentabilidad con la seguridad y las consideraciones éticas. Si bien Deepseek R1 sobresale en los puntos de referencia de rendimiento, su falta de barandillas de seguridad robustas lo hace altamente susceptible al mal uso, enfatizando la importancia de las rigurosas evaluaciones de seguridad para los modelos de IA [1] [5].

Citas:
[1] https://thecubberesearch.com/cisco-uncovers-critical-security-flaws-indeepseek-r1-ai-model/
[2] https://emerj.com/an-ai-cybersecurity-system-may-detect-attacks-with-85-percent-acuracy/
[3] https://www.popai.pro/educationasset/resources/deepseek-r1-vs-ther-ai-models-a-comprehensive-performance-comparison/
[4] https://splx.ai/blog/deepseek-r1-vs-openai-o1-the-ultimate-security-showdow
[5] https://blogs.cisco.com/security/evaluating-security-risk-in-deepseek-and--tero-frontier-razoning-models
[6] https://www.securityweek.com/deepseek-compared-to-chatgpt-gemini-in-ai-Jailbreak-test/
[7] https://www.datacamp.com/blog/deepseek-r1
[8] https://far.ai/post/2025-02-r1-redteaming/
[9] https://www.pcmag.com/news/deepseek-fails-every-safety-test-thrown-at-it-by-researchers
[10] https://writesonic.com/blog/deepseek-vs-chatgpt
[11] https://www.itpro.com/technology/artificial-intelligence/deepseek-r1-model-Jailbreak-security-flaws