Antropisk sikrer AI -sikkerhet og pålitelighet gjennom flere tiltak, inkludert stresstesting, sikkerhetsprotokoller og en ansvarlig skaleringspolitikk [1]. De bruker AI -sikkerhetsnivåer (ASL), modellert etter biosikkerhetsnivå, for å bestemme sikkerhetstiltak basert på potensielle risikoer [2] [3].
Nøkkelkomponenter i Anthropics sikkerhetstilnærming:
* Ansvarlig skaleringspolitikk (RSP) Antropisk bruker et system med AI -sikkerhetsnivåer (ASL) [3]. Hvis et AI -system demonstrerer visse farlige evner, forplikter antropisk seg for ikke å distribuere det eller trene kraftigere modeller inntil spesifikke sikkerhetstiltak er implementert [3].
* Hyppige testing av antropiske tester ofte for farlige evner med jevne mellomrom for å sikre at farlige evner ikke blir skapt ubevisst [3].
* Modellevalueringer designet for å oppdage farlige evner, disse evalueringene fungerer som konservative "advarselsskilt" for å forhindre at de ved et uhell overskrider kritiske sikkerhetsgrenser [2]. Evalueringer kan bestå av flere vanskelighetsstadier, der senere stadier bare kjøres hvis tidligere evalueringer viser advarselsskilt [2].
* Prosedyreforpliktelser ASL -ene spesifiserer hva som må være sant for Anthropics modeller og sikkerhet for å tillate sikker trening og distribusjon [2].
* Overvåking og logging: For intern bruk blir genererte utganger og tilsvarende innganger logget og beholdt i minst 30 dager. Disse loggene overvåkes for unormal aktivitet, og alarmer blir tatt på alvor og responderes på omgående [2].
* Tiered Access: I begrensede tilfeller kan modeller med evner som er relevante for katastrofale skader være tilgjengelige for en valgt gruppe av overvåkede brukere med en legitim og gunstig bruk-sak som ikke kan skilles fra farlige evner, forutsatt at tilgang kan gis trygt og med med tilstrekkelig tilsyn [2].
* Sårbarhet og avsløring av hendelser: Antropisk engasjerer seg i en sårbarhets- og hendelsesavsløringsprosess med andre laboratorier (underlagt sikkerhet eller juridiske begrensninger) som dekker røde teamende resultater, nasjonale sikkerhetstrusler og autonome replikasjonstrusler [2].
* Rask respons på modellsårbarheter: Når den ble informert om en nyoppdaget modellsårbarhet som muliggjør katastrofal skade, forplikter antropisk seg for å dempe eller lappe det omgående [2].
* To-partikontroll: Anvendt på alle systemer som er involvert i utvikling, trening, hosting og distribusjon av Frontier AI-modeller, innebærer dette en systemdesign der ingen person har vedvarende tilgang til produksjonskritiske miljøer; I stedet må de be om tidsbegrenset tilgang fra en kollega med en forretningsberettigelse [8].
* Brukersikkerhetsfunksjoner Disse inkluderer deteksjonsmodeller for å flagge potensielt skadelig innhold, sikkerhetsfilter på spørsmål og forbedrede sikkerhetsfilter for brukere som gjentatte ganger bryter retningslinjene [7].
Antropic bruker også deteksjonsmodeller for å flagge potensielt skadelig innhold og sikkerhetsfilter på spørsmål [7]. De investerer aktivt i og eksperimenterer med ytterligere sikkerhetsfunksjoner og gir verktøy for å dempe skade, og de oppfordrer brukerne til å gi tilbakemelding på disse tiltakene [7].
Sitasjoner:
[1] https://myscale.com/blog/transformative-influence-antropic-ai-safety-measures/
[2] https://www-cdn.antropic.com/1ADF000C8F675958C2EE23805D91AAADE1CD4613/Responsible-Saling-policy.pdf
[3] https://www.antropic.com/news/uk-ai-safety-summit
[4] https://accelerationeconomy.com/ai/Anthropic-leads-the-charge-in-ai-safety-and-preator/
[5] https://www.antropic.com/news/core-views-on-ai-safety
[6] https://engineeringsidas.substack.com/p/comments-on-antropics-ai-safety
[7] https://support.antropic.com/en/articles/8106465-yr-approach-to-user-sikkerhet
[8] https://www.antropic.com/news/frontier-model-security