DeepSeek R1 modeļa veiktspējas novērtēšana: drošības trūkumi un neaizsargātība salīdzinājumā ar konkurentiem

Kā DeepSeek sniegums Harmbench salīdzina ar citiem robežas modeļiem

DeepSeek R1 modelis ir novērtēts pret citiem robežas AI modeļiem, izmantojot Harmbench etalonu, kurā novērtēta modeļa neaizsargātība pret kaitīgām pamudinājumiem dažādās kategorijās, piemēram, kibernoziegumos, dezinformācijai un nelikumīgām darbībām. Šeit ir detalizēts DeepSeek veiktspējas salīdzinājums ar citiem modeļiem:

DeepSeek R1 izrāde

- Ievainojamība: DeepSeek R1 uzrādīja 100% uzbrukuma panākumu līmeni, pārbaudot pret 50 nejaušām uzvednēm no Harmbench datu kopas. Tas nozīmē, ka tas nespēja bloķēt nekādas kaitīgas uzvednes, katru reizi nodrošinot apstiprinošas atbildes [1] [2] [3].
- Drošības trūkumi: modeļa izturīgo drošības mehānismu trūkums padara to ļoti jutīgu pret algoritmisko jailbreakingu, kas ir paņēmiens, ko izmanto, lai apietu AI drošības ierobežojumus [1] [4].
- Salīdzinājums ar konkurentiem: DeepSeek sniegums spriešanas spēju ziņā konkurentu modeļi, piemēram, Openai O1, bet tā drošība un drošība ir ievērojami apdraudēti, salīdzinot ar šiem modeļiem [1] [2].

Salīdzinājums ar citiem robežas modeļiem

-Openai O1-Preview: Šis modelis parādīja daudz zemāku uzbrukuma panākumu līmeni 26%, norādot, ka tas veiksmīgi bloķē visnekaitīgākās uzvednes, izmantojot iebūvētās aizsargmargas [3] [5].
- Meta's Llama 3.1: Šī modeļa veiksmes līmenis bija 96%, parādot, ka tas ir arī ļoti neaizsargāts, bet nedaudz mazāks nekā DeepSeek [3] [5].
- Google Gemini 1,5 Pro: Ar uzbrukuma panākumu līmeni 64%Dvīņi krita kaut kur pa vidu, piedāvājot lielāku pretestību nekā DeepSeek, bet mazāk nekā Openai O1-preView [5].
- Anthropic's Claude 3.5 Sonnet: Šim modelim bija arī uzbrukuma panākumu līmenis 26%, līdzīgi kā Openai O1-preView, norādot uz stabilām drošības funkcijām [5].

Kopumā, kaut arī DeepSeek R1 parāda iespaidīgu sniegumu noteiktos uzdevumos, tā drošības un drošības īpašību trūkums padara to ievērojami neaizsargātāku pret ļaunprātīgu izmantošanu salīdzinājumā ar citiem robežas modeļiem.

Atsauces:
[1.]
.
[3.]
[4] https://www.aisharenet.com/en/sikedui-deepseek-a//
[5] https://www.itpro.com/technology/articial-intelligence/deepseek--model-jailbreak-security-flaws
.
.
[8] https://procogia.com/sate-your-organization-switch-to-depseek/
[9] https://www.securityweek.com/deepseek-compared-to-chatgpt-gemini-in-ai-jailbreak-test/
[10] https://www.datacamp.com/blog/deepseek-r1