Antropisk sikrer AI -sikkerhed og pålidelighed gennem flere mål, herunder stresstest, sikkerhedsprotokoller og en ansvarlig skaleringspolitik [1]. De bruger AI -sikkerhedsniveauer (ASL), modelleret efter biosikkerhedsniveauer, til at bestemme sikkerhedsforanstaltninger baseret på potentielle risici [2] [3].
Nøglekomponenter i Anthropics sikkerhedsmetode:
* Ansvarlig skaleringspolitik (RSP) antropisk anvender et system med AI -sikkerhedsniveauer (ASL) [3]. Hvis et AI -system demonstrerer visse farlige kapaciteter, forpligter antropiske forpligtelser sig til ikke at implementere det eller træne mere kraftfulde modeller, indtil specifikke beskyttelsesforanstaltninger er implementeret [3].
* Hyppige test af antropiske tests ofte for farlige evner med regelmæssige intervaller for at sikre, at farlige evner ikke skabes ubevidst [3].
* Modelevalueringer designet til at detektere farlige evner, disse evalueringer fungerer som konservative "advarselsskilte" for at forhindre ved et uheld at overskride kritiske sikkerhedstærskler [2]. Evalueringer kan bestå af flere vanskelighedsstadier, hvor senere faser kun køres, hvis tidligere evalueringer viser advarselsskilte [2].
* Proceduremæssige forpligtelser ASL'erne specificerer, hvad der skal være tilfældet med Anthropics modeller og sikkerhed for at muliggøre sikker træning og implementering [2].
* Overvågning og logning: Til intern brug er genererede output og tilsvarende input logget og tilbageholdt i mindst 30 dage. Disse logfiler overvåges for unormal aktivitet, og alarmer tages alvorligt og reageres hurtigt på [2].
* Tieret adgang: I begrænsede tilfælde kan modeller med kapaciteter, der er relevante for katastrofal skade, være tilgængelig for en udvalgt gruppe af vettede brugere med en legitim og gavnlig brugssag, der ikke kan adskilles fra farlige kapaciteter, forudsat at adgang kan tildeles sikkert og med med tilstrækkelig tilsyn [2].
* Sårbarhed og videregivelse af hændelser: Antropisk indgår i en sårbarheds- og hændelsesoplysningsproces med andre laboratorier (underlagt sikkerhed eller juridiske begrænsninger), der dækker røde hold-resultater, trusler om national sikkerhed og autonome replikationstrusler [2].
* Hurtig respons på modellsårbarheder: Når den informeres om en nyopdaget model sårbarhed, der muliggør katastrofal skade, forpligter antropisk sig til at afbøde eller patch den straks [2].
* To-partisk kontrol: Anvendt til alle systemer, der er involveret i udvikling, træning, hosting og implementering af Frontier AI-modeller, involverer dette et systemdesign, hvor ingen enkelt person har vedvarende adgang til produktionskritiske miljøer; I stedet skal de anmode om tidsbegrænset adgang fra en kollega med en forretningsmæssig begrundelse [8].
* Brugersikkerhedsfunktioner Disse inkluderer detektionsmodeller til at markere potentielt skadeligt indhold, sikkerhedsfiltre på promp og forbedrede sikkerhedsfiltre for brugere, der gentagne gange overtræder politikker [7].
Antropiske bruger også detektionsmodeller til at markere potentielt skadeligt indhold og sikkerhedsfiltre på prompter [7]. De investerer aktivt i og eksperimenterer med yderligere sikkerhedsfunktioner og leverer værktøjer til at afbøde skade, og de opfordrer brugerne til at give feedback om disse foranstaltninger [7].
Citater:
)
)
[3] https://www.anthropic.com/news/uk-i-safety-sonmmit
[4] https://accelerationeconomy.com/ai/anthropic-leads-the-charge-in-i-safety-and-performance/
[5] https://www.anthropic.com/news/core-views-on-i-safety
[6] https://engineeringideas.substack.com/p/comments-on-antropics-i-safety
)
[8] https://www.anthropic.com/news/frontier-model-security