Kaip antropic užtikrina AI modelių saugumą

„Anthropic“ užtikrina savo AI modelių saugumą naudojant įvairius metodus ir politiką, įskaitant atsakingą mastelio keitimo politiką (RSP), AI saugos lygius (ASL), saugos filtrus ir aptikimo modelius [2] [5]. Vartotojo saugumas yra pagrindinis „Anthropic“ misijos sukurti patikimas, aiškias ir valdomas AI sistemas [5].

Pagrindinės saugos priemonės:
* Atsakinga mastelio keitimo politika (RSP) „Antropic“ sukūrė RSP, kad būtų galima valdyti riziką, susijusią su vis labiau pajėgiais AI modeliais [2]. Šioje politikoje pristatoma sistema, vadinama AI saugos lygiu (ASL), semianti įkvėpimo iš JAV vyriausybės biosaugos lygio (BSL) standartų, kurie naudojami pavojingoms biologinėms medžiagoms tvarkyti [2] [7]. RSP oficialiai patvirtino „Anthropic“ valdyba, o bet kokius politikos pakeitimus taip pat turi patvirtinti valdyba [2].
* AI saugos lygiai (ASL) ASL sistema yra skirta užtikrinti, kad saugos, saugumo ir veiklos standartai būtų tinkami modelio katastrofiškos rizikos galimybėms [2] [7]. Aukštesnis ASL lygis reikalauja griežtesnių saugumo demonstracijų [2]. Ši politika subalansuoja AI ekonominę ir socialinę vertę su poreikiu sušvelninti didelę riziką, ypač katastrofišką riziką, kuri gali kilti dėl sąmoningo piktnaudžiavimo ar nenumatyto destruktyvaus pačių modelių elgesio [2].
* Saugos filtrai „Antropic“ naudoja saugos filtrus raginimuose, kurie gali užkirsti kelią modelio atsakymams, kai jų aptikimo modeliai pažymi turinį kaip kenksmingą [5]. Jie taip pat turi patobulintus saugos filtrus, kurie leidžia padidinti jų aptikimo modelių jautrumą [5]. „Anthropic“ gali laikinai pritaikyti patobulintus saugos filtrus vartotojams, kurie ne kartą pažeidžia savo politiką, ir pašalinti šias kontrolės priemones po to, kai nebuvo ar nedaug pažeidimų [5].
* Aptikimo modeliai „Anthropic“ naudoja aptikimo modelius, kurie, remiantis jų naudojimo politika, gali būti kenksmingas potencialiai kenksmingas turinys [5].

Papildomos apsaugos priemonės:
* Pagrindinės apsaugos priemonės Tai apima ID, susieto su kiekvienu API skambučiu, saugojimas, kad būtų galima tiksliai nustatyti konkretų pažeidžiamąjį turinį ir paskirti ID vartotojams stebėti asmenis, pažeidžiančius antropijos AUP [1]. Jie taip pat užtikrina, kad klientai supranta leistiną naudojimą ir apsvarsto galimybę reikalauti klientų prisiregistruoti į sąskaitą savo platformoje prieš naudodamiesi Claude [1].
* Tarpinės apsaugos priemonės „Antropic“ sukuria pritaikymo sistemas, kurios riboja galutinio vartotojo sąveiką su Claude iki riboto raginimo rinkinio arba leidžia Claude'ui peržiūrėti konkrečią žinių korpusą, mažinant vartotojų galimybes įsitraukti į pažeidžiamą elgesį [1]. Jie taip pat įgalina papildomus saugos filtrus, kurie yra nemokami realaus laiko moderavimo įrankiai, kuriuos sukūrė „Anthropic“, padedantys aptikti potencialiai kenksmingus raginimus ir valdyti realaus laiko veiksmus, siekiant sumažinti žalą [1].
* Pažangios apsaugos priemonės, vykdančios saikingumo API, prieš visus galutinio vartotojo raginimus, kol jie nebus siunčiami į Claude'ą, užtikrina, kad jie nebus kenksmingi [1].
* Išsamios apsaugos priemonės „Antropic“ sukuria vidinę žmonių peržiūros sistemą, skirtą pažymėti raginimus, kuriuos Claude arba moderavimo API pažymėjo kaip kenksmingą, todėl jie gali įsikišti, kad apribotų ar pašalintų vartotojus, turinčius aukštą pažeidimo procentą [1].

„Anthropic“ taip pat yra įsipareigojęs savo AI sistemų patikimumui ir aiškinamumui, pasiektam atliekant griežtus tyrimus ir taikant pažangias saugos metodus [2]. Reikšmingas aiškinamumo proveržis yra „Antropic“ nedaug autocoderių panaudojimas „monosemantiniam ypatybių ištraukimui“, kuris supaprastina sudėtingus nervų tinklus į suprantamus komponentus [2].

Citatos:
[1] https://support.anthropic.com/en/articles/9199617-Api-Trust-Safety-Tools
[2] https://klu.ai/glossary/anthropic-ai
[3] https://myscale.com/blog/transformative-influence-anthropic-ai-safety-measures/
[4] https://www.anthropic.com/news/frontier-model-security
[5] https://support.anthropic.com/en/articles/8106465-our-acteproach-to-user-saApety
[6] https://www.alignmentforum.org/posts/xhkr5ktvdjrssmej3/anthropic-s-core-views-on-ai-safety
[7] https://www.anthropic.com/news/anthropics-onesponsible-scaling-policy
[8] https://engineeringideas.substack.com/p/comments-on-anthropics-ai-safety
[9] https://www.youtube.com/watch?v=e6_x0zoxvvi
[10] https://www.anthropic.com/news/core-views-on-ai-safety

Atsakymas iš pasipiktinimo: https://www.perplexity.ai/search/how-does-anthropic-ensure-the-.dwp39i9qu63n9c3qqw1va?utm_source=copy_output