Anthropic zaisťuje bezpečnosť svojich modelov AI prostredníctvom rôznych techník a politík vrátane zodpovednej politiky škálovania (RSP), úrovne bezpečnosti AI (ASL), bezpečnostných filtrov a detekčných modelov [2] [5]. Bezpečnosť používateľov je ústredným prvkom poslania spoločnosti Antropic vytvárať spoľahlivé, interpretibilné a riadiace systémy AI [5].
Kľúčové bezpečnostné opatrenia:
* Zodpovedná politika škálovania (RSP) Anthropic vyvinula RSP na riadenie rizík spojených s čoraz viac schopnými modelmi AI [2]. Táto politika predstavuje rámec s názvom AI bezpečnostné úrovne (ASL), ktorý čerpá inšpiráciu z noriem vlády vlády USA (BSL), ktoré sa používajú na manipuláciu s nebezpečnými biologickými materiálmi [2] [7]. RSP bol formálne schválený radou Antropic a všetky zmeny v politike musia byť schválené aj radou [2].
* Úroveň bezpečnosti AI (ASL) Rámec ASL je navrhnutý tak, aby zabezpečil, že bezpečnosť, bezpečnosť a prevádzkové normy sú vhodné pre potenciál modelu pre katastrofické riziko [2] [7]. Vyššie úrovne ASL si vyžadujú prísnejšie demonštrácie bezpečnosti [2]. Politika vyvažuje hospodársku a sociálnu hodnotu AI s potrebou zmierniť vážne riziká, najmä katastrofické riziká, ktoré by mohli vzniknúť z úmyselného zneužitia alebo nezamýšľaného ničivého správania samotnými modelmi [2].
* Bezpečnostné filtry Anthropic využívajú bezpečnostné filtre na výzvy, ktoré môžu blokovať reakcie z modelu, keď ich detekčné modely označia obsah škodlivého [5]. Majú tiež vylepšené bezpečnostné filtre, ktoré im umožňujú zvýšiť citlivosť svojich detekčných modelov [5]. Anthropic môže dočasne uplatňovať vylepšené bezpečnostné filtre na používateľov, ktorí opakovane porušujú svoje politiky, a tieto ovládacie prvky odstránia po období žiadnych alebo niekoľkých porušení [5].
* Detekčné modely Anthropic využívajú detekčné modely, ktoré označujú potenciálne škodlivý obsah na základe ich politiky používania [5].
Ďalšie záruky:
* Medzi základné záruky patrí ukladanie ID prepojených s každým volaním API na určenie špecifického porušujúceho obsahu a priradenie ID používateľom sledovať jednotlivcov, ktorí porušujú antropické AUP [1]. Zabezpečujú tiež, aby zákazníci pochopili povolené použitie a zvažujú, že požadujú, aby zákazníci zaregistrovali účet na svojej platforme pred použitím Claude [1].
* Medziprodukčné záruky Anthropic vytvára rámce prispôsobenia, ktoré obmedzujú interakcie koncových používateľov s Claude na obmedzenú skupinu výziev alebo umožňujú Claude skontrolovať špecifický znalostný korpus, čím sa znižuje schopnosť používateľov zapojiť sa do porušujúceho správania [1]. Umožňujú tiež ďalšie bezpečnostné filtre, ktoré sú bezplatným nástrojom na moderovanie v reálnom čase vytvorené spoločnosťou Anthropic na pomoc pri zisťovaní potenciálne škodlivých výziev a riadení akcií v reálnom čase na zníženie poškodenia [1].
* Pokročilé záruky prevádzkované API moderujúceho API proti všetkým výzvam koncového používateľa skôr, ako budú zaslané do Claude, zabezpečí, že nie sú škodlivé [1].
* Komplexná ochrana antropie pripravuje interný systém preskúmania ľudských preskúmaní, ktorý označuje výzvy, ktoré sú označené Claude alebo moderujúce rozhranie API ako škodlivé, takže môžu zasiahnuť, aby obmedzovali alebo odstránili používateľov s vysokou mierou porušenia [1].
Anthropic sa tiež zaviazala k spoľahlivosti a interpretovateľnosti svojich systémov AI, dosiahnutá prostredníctvom prísneho výskumu a uplatňovania pokročilých bezpečnostných techník [2]. Významným prielomom v interpretácii je používanie riedkeho automatického množstva antropie pre „monosemantické vlastnosti extrakcie“, ktoré zjednodušujú zložité neurónové siete do zrozumiteľných komponentov [2].
Citácie:
[1] https://support.anthropic.com/en/articles/9199617-Api-trust-safety-ools
[2] https://klu.ai/glossary/anthropic-ai
[3] https://myscale.com/blog/transformative-influence-anthropic-ai-safetymeasures/
[4] https://www.anthropic.com/news/frontier-model-security
[5] https://support.anthropic.com/en/articles/8106465-our-approach-to-user-safety
[6] https://www.alignmentforum.org/posts/xhkr5ktvdjrsej3/anthropic-s-core-views-onw-on-ai-safety
[7] https://www.anthropic.com/news/anthropics-reponsible-scaling-policy
[8] https://engineeringideas.substack.com/p/comments-on-nthropics-ai-safety
[9] https://www.youtube.com/watch?v=E6_x0zoxvvi
[10] https://www.anthropic.com/news/core-views-on-ai-safety