„Deepseek R1“ pažeidžiamumas: išsamus AI saugumo palyginimas

Kaip „Deepseek R1“ 100% atakų sėkmės procentas yra palyginti su kitais AI modeliais

Kaip pranešė „Cisco“ tyrėjai, „Deepseek R1“ 100% atakų sėkmės procentas pabrėžia jo pažeidžiamumą prieštaringų atakų, palyginti su kitais garsiais AI modeliais. Šis pažeidžiamumas yra ypač susijęs su, nes tai rodo, kad „Deepseek R1“ nesugebėjo užblokuoti nė vieno iš 50 kenksmingų raginimų, išbandytų iš „Harmbench“ duomenų rinkinio, į kurį įeina tokios kategorijos kaip kibernetinis nusikaltimas, dezinformacija ir neteisėta veikla [1] [5] [9].

Priešingai, kiti AI modeliai parodė geresnį atsparumą tokiems išpuoliams. Pavyzdžiui, „Openai“ O1 modelis parodė žymiai mažesnį 26% puolimo sėkmės procentą panašiuose bandymuose, tai rodo, kad jis sugebėjo blokuoti didelę kenksmingų raginimų dalį [6]. Be to, „Openai“ O1 modelis pasižymėjo saugumo kategorijomis, tokiomis kaip konteksto nutekėjimas ir „Jailbreak“, o puolimo sėkmės procentas buvo 0%, tuo tarpu „Deepseek R1“ kovojo šiose srityse [4].

„Google“ „Gemini“ ir „Anthropic“ „Claude 3.5“ taip pat pasirodė geriau nei „Deepseek R1“ saugumo prasme. „Gemini“ užpuolikams pasiekė 35% sėkmės procentą, o Claude 3,5 užblokavo 64% išpuolių [9]. Šis skirtumas pabrėžia tvirtų saugumo priemonių poreikį AI modeliuose, nes atrodo, kad „Deepseeek R1“ ekonominiai mokymo metodai pakenkė jo saugos mechanizmams [6] [9].

Palyginimas pabrėžia platesnį iššūkį AI pramonėje, kaip subalansuoti ekonomiškumo efektyvumą su saugumo ir etiniais sumetimais. Nors „Deepseeek R1“ pasižymi našumo etalonais, dėl tvirtų apsauginių apsauginių apsauginių apsaugos priemonių trūkumo jis labai jautrus piktnaudžiavimui, pabrėžiant griežtų AI modelių saugumo vertinimų svarbą [1] [5].

Citatos:
[1] https://thecuberesearch.com/cisco-covovers-ritical-security-flaws-in-deepseek-r1-ai-model/
[2] https://emerj.com/an-ai-cybersecurity-system-hay-detect-attacks-with-85-Percent-accuracy/
]
[4] https://splx.ai/blog/deepseeek-r1-vs-openai-o1-the-tlimate-security-showdown
[5] https://blogs.cisco.com/security/evaluating-securityrisdisk-in-deepseek-and-ther-frontier-reasoning-models
[6] https://www.securityweek.com/deepseek-compared-to-chatgpt-gemini-in-ai-jailbreak-test/
[7] https://www.datacamp.com/blog/deepseek-r1
[8] https://far.ai/post/2025-02-r1-redteaming/
[9] https://www.pcmag.com/news/deepseek-fails-every-safety-test-trown-at-it-by-reesearchers
[10] https://writesonic.com/blog/deepseek-vs-chatGpt
[11] https://www.itpro.com/technology/artificial-intelligence/deepseek-r1-model-jailbreak-security-flaws