Vulnerabilidades Deepseek R1: uma comparação abrangente de segurança de IA

Como a taxa de sucesso de 100% do DeepSeek R1 se compara a outros modelos de IA

A taxa de sucesso de 100% do Deepseek R1, conforme relatado pelos pesquisadores da Cisco, destaca sua vulnerabilidade a ataques adversários em comparação com outros modelos de IA proeminentes. Essa vulnerabilidade é particularmente preocupante porque indica que o Deepseek R1 não bloqueou nenhum dos 50 prompts prejudiciais testados no conjunto de dados do Harmbench, que inclui categorias como crimes cibernéticos, desinformação e atividades ilegais [1] [5] [9].

Por outro lado, outros modelos de IA demonstraram melhor resiliência contra tais ataques. Por exemplo, o modelo O1 do OpenAI mostrou uma taxa de sucesso de ataque significativamente menor de 26% em testes semelhantes, indicando que foi capaz de bloquear uma porção substancial de avisos prejudiciais [6]. Além disso, o modelo O1 da OpenAI se destacou em categorias de segurança como vazamento de contexto e jailbreak, com uma taxa de sucesso de ataque de 0%, enquanto o Deepseek R1 lutou nessas áreas [4].

O Claude 3.5 do Google também teve um desempenho melhor do que o DeepSeek R1 em termos de segurança. Gêmeos alcançou uma taxa de sucesso de 35% para os atacantes, enquanto Claude 3,5 bloqueou 64% dos ataques [9]. Essa disparidade ressalta a necessidade de medidas de segurança robustas nos modelos de IA, pois os métodos de treinamento econômicos da DeepSeek R1 parecem ter comprometido seus mecanismos de segurança [6] [9].

A comparação destaca o desafio mais amplo na indústria de IA de equilibrar a eficiência de custos com segurança e considerações éticas. Enquanto o Deepseek R1 se destaca nos benchmarks de desempenho, sua falta de corrimãos de segurança robustos o torna altamente suscetível a uso indevido, enfatizando a importância de avaliações de segurança rigorosas para os modelos de IA [1] [5].

Citações:
[1] https://thecbeberesearch.com/cisco-uncovers-critical-security-blaws-in-Deepseek-r1-ai-model/
[2] https://emerj.com/an-ai-cybersecurity-system-may-detect-attacks-with-85- cent-accuracy/
[3] https://www.popai.pro/educationasset/resources/deepseek-r1-vs-other-ai-models-a-ceprensive-permance-comparison/
[4] https://splx.ai/blog/deepseek-r1-vs-openai-o1-the-ultimate-security-showdown
[5] https://blogs.cisco.com/security/evaluating-security-bisk-in-deepseek-and-other-frontier-reasoning-models
[6] https://www.securityweek.com/deepseek-compared-to-chatgpt-gimini-in-ai-jailbreak-test/
[7] https://www.datacamp.com/blog/deepseek-r1
[8] https://far.ai/post/2025-02-r1-redteaming/
[9] https://www.pcmag.com/news/deepseek-dails-every-afety-test-thrown-at-it-by-researchers
[10] https://writesonic.com/blog/deepseek-vs-chatgpt
[11] https://www.itpro.com/technology/artificial-intelligence/deepseek-r1-model-jailbreak-security-flaws