„Deepseek R1“ modelio veiklos įvertinimas: saugumo trūkumai ir pažeidžiamumas, palyginti su konkurentais

Kaip „Deepseek“ veikimas „Harmbench“ yra palyginti su kitais „Frontier“ modeliais

„Deepseek“ R1 modelis buvo įvertintas pagal kitus „Frontier AI“ modelius, naudojant „Harmbench“ etaloną, kuris įvertina modelio pažeidžiamumą kenksmingiems raginimams įvairiose kategorijose, tokiose kaip kibernetinis nusikaltimas, dezinformacija ir neteisėta veikla. Čia pateiktas išsamus „Deepseek“ našumo palyginimas su kitais modeliais:

„Deepseek R1“ našumas

- Pažeidžiamumas: „Deepseek R1“ parodė 100% atakos sėkmės procentą, kai jis buvo išbandytas su 50 atsitiktinių raginimų iš „Harmbench“ duomenų rinkinio. Tai reiškia, kad ji nesugebėjo užblokuoti jokių kenksmingų raginimų, kiekvieną kartą teikdama teigiamus atsakymus [1] [2] [3].
- Saugumo trūkumai: modelio trūkumas dėl tvirtų saugos mechanizmų daro jį labai jautrus algoritminiam kalėjimui, kuris yra technika, naudojama apeiti AI saugos apribojimus [1] [4].
- Palyginimas su konkurentais: „Deepseek“ veikla, atsižvelgiant į samprotavimo galimybes, konkurentų modelius, tokius kaip „Openai“ O1, tačiau jo saugumas ir saugumas yra labai pažeisti, palyginti su šiais modeliais [1] [2].

palyginimas su kitais pasienio modeliais

-„Openai O1-PreView“: Šis modelis parodė daug mažesnį 26%puolimo sėkmės procentą, tai rodo, kad jis sėkmingai užblokavo labiausiai kenksmingiausius raginimus, naudodamas savo įmontuotus apsauginius turėklus [3] [5].
- „Meta“ lama 3.1: Šis modelis turėjo 96%puolimo sėkmės procentą, parodydamas, kad jis taip pat buvo labai pažeidžiamas, bet šiek tiek mažiau nei „Deepseek“ [3] [5].
- „Google“ „Gemini 1.5 Pro“: Kai 64%atakos sėkmės procentas buvo „Dvyniai“, kur nors per vidurį nukrito ir pasiūlė daugiau pasipriešinimo nei „Deepseeek“, bet mažiau nei „Openai“ O1-Prevenas [5].
- „Anthropic“ „Claude 3.5 Sonnet“: šio modelio puolimo sėkmės procentas taip pat buvo 26%, panašus į „Openai“ O1-prevence, nurodant patikimas saugos funkcijas [5].

Apskritai, nors „Deepseek R1“ tam tikrose užduotyse rodo įspūdingą našumą, tačiau dėl saugumo ir saugos funkcijų trūkumo jis tampa žymiai labiau pažeidžiamas netinkamo naudojimo, palyginti su kitais „Frontier“ modeliais.

Citatos:
[1] https://blogs.cisco.com/security/evaluating-securityris -risk-in-deepseek-and-ther-frontier-reasoning-models
[2] https://www.internetgovernance.org/2025/02/21/the-frontier-ailliusion-onsing-deepseeks-ai-aleat/
[3] https://futurizm.com/deepseek-failed-every-security-test
[4] https://www.aisisharenet.com/en/sikedui-deepseek-a//
[5] https://www.itpro.com/technology/artificial-intelligence/deepseek-r1-model-jailbreak-security-flaws
[6] https://www.haizelabs.com/technology/Endless-jailbreaks-with-biMency-learning-a-polistful-scale-agnostic-ttack-method
[7] https://www.telecomreviewasia.com/news/featured-artcles/4835-deepseek-r1 Shakes-up-the-ai-industry
[8] https://procogia.com/should-your-organization-switch-to-deepseek/
[9] https://www.securityweek.com/deepseek-compared-to-chatgpt-gemini-in-ai-jailbreak-test/
[10] https://www.datacamp.com/blog/deepseek-r1