DeepSeek R1 ievainojamības: visaptverošs AI drošības salīdzinājums

Kā DeepSeek R1 100% uzbrukuma panākumu līmenis salīdzina ar citiem AI modeļiem

DeepSeek R1 100% uzbrukuma panākumu līmenis, kā ziņo Cisco pētnieki, uzsver tā neaizsargātību pret pretrunīgiem uzbrukumiem, salīdzinot ar citiem ievērojamiem AI modeļiem. Šī neaizsargātība ir īpaši saistīta ar to, ka tas norāda, ka DeepSeek R1 nespēja bloķēt nevienu no 50 kaitīgajiem uzvedumiem, kas pārbaudīti no Harmbench datu kopas, kas ietver tādas kategorijas kā kibernoziegumi, dezinformācija un nelikumīgas darbības [1] [5] [9].

Turpretī citi AI modeļi ir pierādījuši labāku izturību pret šādiem uzbrukumiem. Piemēram, Openai O1 modelis parādīja ievērojami zemāku uzbrukuma panākumu līmeni 26% līdzīgos testos, norādot, ka tas spēja bloķēt ievērojamu kaitīgu uzvedņu daļu [6]. Turklāt Openai O1 modelis izcēlās ar tādām drošības kategorijām kā konteksta noplūde un jailbreak, ar 0% uzbrukuma panākumu līmeni, turpretī DeepSeek R1 cīnījās šajās jomās [4].

Google Gemini un Anthropic's Claude 3.5 arī veica labāk nekā DeepSeek R1 drošības ziņā. Dvīņi ieguva 35% panākumu līmeni uzbrucējiem, bet Klods 3,5 bloķēja 64% no uzbrukumiem [9]. Šī atšķirība uzsver nepieciešamību pēc stabiliem drošības pasākumiem AI modeļos, jo DeepSeek R1 rentablās apmācības metodes, šķiet, ir apdraudējušas tās drošības mehānismus [6] [9].

Salīdzinājums izceļ plašāku izaicinājumu AI nozarē, līdzsvarojot izmaksu efektivitāti ar drošību un ētiskiem apsvērumiem. Kaut arī DeepSeek R1 izceļas ar veiktspējas etaloniem, tā spēcīgo apsardzes līdzekļu trūkums padara to ļoti jutīgu pret ļaunprātīgu izmantošanu, uzsverot stingra drošības novērtējumu nozīmi AI modeļiem [1] [5].

Atsauces:
[1.]
[2] https://emerj.com/an-ai-cybersecurity-system-may-detect-attacks-with-85-percent-accuracy/
[3] https://www.popai.pro/educationasset/resources/deepseek-r1-vs-other-ai-models-a-comprehensive-performance-comparison/
.
[5] https://blogs.cisco.com/security/evaluating-security-risk-in-depseek-and-other-frontier-streasoning modeles
[6.]
[7] https://www.datacamp.com/blog/deepseek-r1
[8] https://far.ai/post/2025-02-r1-redteaming/
[9] https://www.pcmag.com/news/deepseek-fails-every-safetytest-thown-at-it-by-pētnieki
[10] https://writesonic.com/blog/deepseek-vs-chatgpt
[11] https://www.itpro.com/technology/articial-intelligence/deepseek--model-jailbreak-security-flaws