DeepSeek R1 Pulnerabiles: Một so sánh bảo mật AI toàn diện

Làm thế nào để tỷ lệ thành công tấn công 100% của DeepSeek R1 so với các mô hình AI khác

Tỷ lệ thành công tấn công 100% của Deepseek R1, theo báo cáo của các nhà nghiên cứu của Cisco, nhấn mạnh tính dễ bị tổn thương của nó đối với các cuộc tấn công bất lợi so với các mô hình AI nổi bật khác. Lỗ hổng này đặc biệt liên quan vì nó chỉ ra rằng Deepseek R1 không thể chặn bất kỳ trong số 50 lời nhắc có hại được thử nghiệm từ bộ dữ liệu Harmbench, bao gồm các danh mục như tội phạm mạng, thông tin sai và các hoạt động bất hợp pháp [1] [5] [9].

Ngược lại, các mô hình AI khác đã chứng minh khả năng phục hồi tốt hơn chống lại các cuộc tấn công như vậy. Chẳng hạn, mô hình O1 của Openai cho thấy tỷ lệ thành công tấn công thấp hơn đáng kể là 26% trong các thử nghiệm tương tự, cho thấy rằng nó có thể chặn một phần đáng kể các lời nhắc có hại [6]. Ngoài ra, mô hình O1 của Openai đã xuất sắc trong các danh mục bảo mật như rò rỉ bối cảnh và bẻ khóa, với tỷ lệ thành công tấn công 0%, trong khi Deepseek R1 phải vật lộn trong các lĩnh vực này [4].

Gemini của Google và Claude 3.5 của Google cũng hoạt động tốt hơn Deepseek R1 về mặt bảo mật. Gemini đạt được tỷ lệ thành công 35% cho những kẻ tấn công, trong khi Claude 3,5 đã chặn 64% các cuộc tấn công [9]. Sự chênh lệch này nhấn mạnh sự cần thiết của các biện pháp bảo mật mạnh mẽ trong các mô hình AI, vì các phương pháp đào tạo tiết kiệm chi phí của Deepseek R1 dường như đã làm tổn hại đến các cơ chế an toàn của nó [6] [9].

Sự so sánh nhấn mạnh thách thức rộng hơn trong ngành AI về việc cân bằng hiệu quả chi phí với các cân nhắc về an ninh và đạo đức. Trong khi Deepseek R1 vượt trội trong các điểm chuẩn hiệu suất, nhưng sự thiếu bảo vệ bảo vệ mạnh mẽ của nó khiến nó rất dễ bị lạm dụng, nhấn mạnh tầm quan trọng của các đánh giá bảo mật nghiêm ngặt đối với các mô hình AI [1] [5].

Trích dẫn:
.
.
.
[4] https://splx.ai/blog/deepseek-r1-vs-openai-o1-the-ultimate-security-showdown
[5] https://blogs.cisco.com/security/evaluating-security-risk-in-deepseek-and-other-frontier-reasoning-models
.
[7] https://www.datacamp.com/blog/deepseek-r1
[8] https://far.ai/post/2025-02-r1-redteaming/
[9] https://www.pcmag.com/news/deepseek-fails-every-safety-test-thrown-at-it-by-researchers
[10] https://writesonic.com/blog/deepseek-vs-chatgpt
[11] https://www.itpro.com/technology/artificial-intelligence/deepseek-r1-model-jailbreak-security-flaws