Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Kaip antropic užtikrina hibridinio AI modelio saugumą ir patikimumą


Kaip antropic užtikrina hibridinio AI modelio saugumą ir patikimumą


„Anthropic“ užtikrina AI saugumą ir patikimumą per kelias priemones, įskaitant testavimą nepalankiausiomis sąlygomis, saugos protokolus ir atsakingą mastelio keitimo politiką [1]. Jie naudoja AI saugos lygius (ASL), modeliuotus po biologinio saugumo lygio, kad nustatytų saugos priemones, pagrįstus potencialia rizika [2] [3].

Pagrindiniai „Anthropic“ saugos metodo komponentai:
* Atsakinga mastelio keitimo politika (RSP) „Anthropic“ naudoja AI saugos lygio (ASL) sistemą [3]. Jei AI sistema demonstruoja tam tikras pavojingas galimybes, antropiniai įsipareigoja jos nediegti arba mokyti galingesnių modelių, kol nebus įgyvendintos konkrečios apsaugos priemonės [3].
* Dažnai testuojant antropinius testus, kurie dažnai reguliariai, kad būtų pavojingos galimybės, kad būtų užtikrinta, jog pavojingos galimybės nebus sukurtos nesąmoningai [3].
* Modelio vertinimai, skirti aptikti pavojingus galimybes, šie vertinimai veikia kaip konservatyvūs „įspėjamieji ženklai“, siekiant užkirsti kelią netyčia viršyti kritines saugos ribas [2]. Vertinimus gali sudaryti keli sunkumų etapai, kai vėlesni etapai vykdomi tik tuo atveju, jei ankstesni vertinimai rodo įspėjamuosius ženklus [2].
* Procedūriniai įsipareigojimai ASLS nurodo, kas turi būti teisinga „Anthropic“ modeliams ir saugumui, kad būtų galima saugiai mokyti ir diegti [2].
* Stebėjimas ir registravimas: Vidiniam naudojimui generuojami išėjimai ir atitinkami įvestys yra registruojamos ir išlaikomos mažiausiai 30 dienų. Šie rąstai stebimi nenormalia veikla, o aliarmai žiūrima rimtai ir reaguojama greitai [2].
* Pakopinė prieiga: Ribotais atvejais modeliams, turintiems katastrofinę žalą susijusių galimybių pakankama priežiūra [2].
* Pažeidžiamumo ir incidentų atskleidimas: Antropikas užsiima pažeidžiamumo ir incidentų atskleidimo procesu su kitomis laboratorijomis (atsižvelgiant į saugumo ar teisinius suvaržymus), apimančias raudonos komandos rezultatus, nacionalinio saugumo grėsmes ir autonomines replikacijos grėsmes [2].
* Greitas reagavimas į modelio pažeidžiamumą: Kai informuota apie naujai atrastą modelio pažeidžiamumą, leidžiantį katastrofišką žalą, antropiniai įsipareigoja ją greitai sušvelninti ar pataisyti [2].
* Dviejų šalių valdymas: taikoma visoms sistemoms, susijusioms su pasienio AI modelių kūrimu, mokymu, priegloba ir diegimu, tai apima sistemos dizainą, kai nė vienas asmuo neturi nuolatinės prieigos prie gamybos kritinės aplinkos; Vietoj to, jie turi paprašyti, kad bendradarbis su verslu pateisintų bendradarbio ribotą laiką [8].
* Vartotojo saugos funkcijos Tai apima aptikimo modelius, kad būtų galima pažymėti potencialiai kenksmingą turinį, raginimų saugos filtrus ir patobulintus saugos filtrus vartotojams, kurie ne kartą pažeidžia politiką [7].

„Anthropic“ taip pat naudoja aptikimo modelius, kad pažymėtų potencialiai kenksmingus turinio ir saugos filtrus pagal raginimus [7]. Jie aktyviai investuoja ir eksperimentuoja su papildomomis saugos funkcijomis ir teikia įrankius, kad sušvelnintų žalą, ir skatina vartotojus teikti atsiliepimus apie šias priemones [7].

Citatos:
[1] https://myscale.com/blog/transformative-influence-anthropic-ai-safety-measures/
[2] https://www-cdn.anthropic.com/1adf000c8f675958c2ee23805d91aaade1cd4613/responsiblecling-policy.pdf
[3] https://www.anthropic.com/news/uk-ai-safety-summit
[4] https://accelerationeconomy.com/ai/Anthropic-leads-the-fcharge-in-ai-safety-and-erformance/
[5] https://www.anthropic.com/news/core-views-on-ai-safety
[6] https://engineeringideas.substack.com/p/comments-on-anthropics-ai-safety
[7] https://support.anthropic.com/en/articles/8106465-our-acteproach-to-user-saSATY
[8] https://www.anthropic.com/news/frontier-model-security

Atsakymas iš pasipiktinimo: https://www.perplexity.ai/search/how-does-anthropic-ensure-the-z927kvgrtc2t99qtutgsza?utm_source=copy_output