„Anthropic“ užtikrina AI saugumą ir patikimumą per kelias priemones, įskaitant testavimą nepalankiausiomis sąlygomis, saugos protokolus ir atsakingą mastelio keitimo politiką [1]. Jie naudoja AI saugos lygius (ASL), modeliuotus po biologinio saugumo lygio, kad nustatytų saugos priemones, pagrįstus potencialia rizika [2] [3].
Pagrindiniai „Anthropic“ saugos metodo komponentai:
* Atsakinga mastelio keitimo politika (RSP) „Anthropic“ naudoja AI saugos lygio (ASL) sistemą [3]. Jei AI sistema demonstruoja tam tikras pavojingas galimybes, antropiniai įsipareigoja jos nediegti arba mokyti galingesnių modelių, kol nebus įgyvendintos konkrečios apsaugos priemonės [3].
* Dažnai testuojant antropinius testus, kurie dažnai reguliariai, kad būtų pavojingos galimybės, kad būtų užtikrinta, jog pavojingos galimybės nebus sukurtos nesąmoningai [3].
* Modelio vertinimai, skirti aptikti pavojingus galimybes, šie vertinimai veikia kaip konservatyvūs „įspėjamieji ženklai“, siekiant užkirsti kelią netyčia viršyti kritines saugos ribas [2]. Vertinimus gali sudaryti keli sunkumų etapai, kai vėlesni etapai vykdomi tik tuo atveju, jei ankstesni vertinimai rodo įspėjamuosius ženklus [2].
* Procedūriniai įsipareigojimai ASLS nurodo, kas turi būti teisinga „Anthropic“ modeliams ir saugumui, kad būtų galima saugiai mokyti ir diegti [2].
* Stebėjimas ir registravimas: Vidiniam naudojimui generuojami išėjimai ir atitinkami įvestys yra registruojamos ir išlaikomos mažiausiai 30 dienų. Šie rąstai stebimi nenormalia veikla, o aliarmai žiūrima rimtai ir reaguojama greitai [2].
* Pakopinė prieiga: Ribotais atvejais modeliams, turintiems katastrofinę žalą susijusių galimybių pakankama priežiūra [2].
* Pažeidžiamumo ir incidentų atskleidimas: Antropikas užsiima pažeidžiamumo ir incidentų atskleidimo procesu su kitomis laboratorijomis (atsižvelgiant į saugumo ar teisinius suvaržymus), apimančias raudonos komandos rezultatus, nacionalinio saugumo grėsmes ir autonomines replikacijos grėsmes [2].
* Greitas reagavimas į modelio pažeidžiamumą: Kai informuota apie naujai atrastą modelio pažeidžiamumą, leidžiantį katastrofišką žalą, antropiniai įsipareigoja ją greitai sušvelninti ar pataisyti [2].
* Dviejų šalių valdymas: taikoma visoms sistemoms, susijusioms su pasienio AI modelių kūrimu, mokymu, priegloba ir diegimu, tai apima sistemos dizainą, kai nė vienas asmuo neturi nuolatinės prieigos prie gamybos kritinės aplinkos; Vietoj to, jie turi paprašyti, kad bendradarbis su verslu pateisintų bendradarbio ribotą laiką [8].
* Vartotojo saugos funkcijos Tai apima aptikimo modelius, kad būtų galima pažymėti potencialiai kenksmingą turinį, raginimų saugos filtrus ir patobulintus saugos filtrus vartotojams, kurie ne kartą pažeidžia politiką [7].
„Anthropic“ taip pat naudoja aptikimo modelius, kad pažymėtų potencialiai kenksmingus turinio ir saugos filtrus pagal raginimus [7]. Jie aktyviai investuoja ir eksperimentuoja su papildomomis saugos funkcijomis ir teikia įrankius, kad sušvelnintų žalą, ir skatina vartotojus teikti atsiliepimus apie šias priemones [7].
Citatos:
[1] https://myscale.com/blog/transformative-influence-anthropic-ai-safety-measures/
[2] https://www-cdn.anthropic.com/1adf000c8f675958c2ee23805d91aaade1cd4613/responsiblecling-policy.pdf
[3] https://www.anthropic.com/news/uk-ai-safety-summit
[4] https://accelerationeconomy.com/ai/Anthropic-leads-the-fcharge-in-ai-safety-and-erformance/
[5] https://www.anthropic.com/news/core-views-on-ai-safety
[6] https://engineeringideas.substack.com/p/comments-on-anthropics-ai-safety
[7] https://support.anthropic.com/en/articles/8106465-our-acteproach-to-user-saSATY
[8] https://www.anthropic.com/news/frontier-model-security