Hvordan sikrer antropisk sikkerheten til AI -modellene

Antropisk sikrer sikkerheten til sine AI -modeller gjennom en rekke teknikker og retningslinjer, inkludert den ansvarlige skaleringspolitikken (RSP), AI sikkerhetsnivåer (ASL), sikkerhetsfilter og deteksjonsmodeller [2] [5]. Brukersikkerhet er sentral i Anthropics oppdrag for å skape pålitelige, tolkbare og styrbare AI -systemer [5].

Nøkkelsikkerhetstiltak:
* Antons skaleringspolitikk (RSP) antropisk utviklet RSP for å håndtere risikoer knyttet til stadig mer dyktige AI -modeller [2]. Politikken introduserer et rammeverk kalt AI Safety Level (ASL), og henter inspirasjon fra den amerikanske regjeringens biosikkerhetsnivå (BSL) standarder som brukes til å håndtere farlige biologiske materialer [2] [7]. RSP er formelt godkjent av Anthropics styre, og eventuelle endringer i policyen må også godkjennes av styret [2].
* AI sikkerhetsnivåer (ASL) ASL -rammeverket er designet for å sikre at sikkerhet, sikkerhet og driftsstandarder er passende for en modells potensial for katastrofal risiko [2] [7]. Høyere ASL -nivåer krever strengere demonstrasjoner av sikkerhet [2]. Politikken balanserer den økonomiske og sosiale verdien av AI med behovet for å dempe alvorlige risikoer, spesielt katastrofale risikoer som kan oppstå fra bevisst misbruk eller utilsiktet destruktiv atferd fra modellene selv [2].
* Sikkerhetsfilter Anthropic bruker sikkerhetsfilter på spørsmål, som kan blokkere svar fra modellen når deteksjonsmodeller flagger innhold som skadelig [5]. De har også forbedrede sikkerhetsfilter, som lar dem øke følsomheten til deteksjonsmodellene [5]. Antropisk kan midlertidig bruke forbedrede sikkerhetsfilter for brukere som gjentatte ganger bryter retningslinjene sine, og fjerner disse kontrollene etter en periode med NO eller få brudd [5].
* Deteksjonsmodeller Anthropic bruker deteksjonsmodeller som flagger potensielt skadelig innhold basert på brukspolitikken deres [5].

Ytterligere sikkerhetstiltak:
* Grunnleggende sikkerhetstiltak Disse inkluderer lagrings -ID -er som er koblet til hver API -samtale for å finne spesifikt krenkende innhold og tilordne ID -er til brukere for å spore enkeltpersoner som krenker Anthropics AUP [1]. De sikrer også at kundene forstår tillatt bruk og vurderer å kreve at kundene registrerer seg for en konto på plattformen deres før de bruker Claude [1].
* Mellomliggende sikkerhetsregler Antropisk skaper tilpasningsrammer som begrenser sluttbrukerinteraksjoner med Claude til et begrenset sett med spørsmål eller bare lar Claude gjennomgå et spesifikt kunnskapskorpus, og redusere brukernes evne til å delta i krenkende atferd [1]. De muliggjør også flere sikkerhetsfilter, som er gratis moderasjonsverktøy i sanntid bygget av antropisk for å hjelpe til med å oppdage potensielt skadelige spørsmål og håndtere sanntidshandlinger for å redusere skade [1].
* Avanserte beskyttelsesregler som kjører et moderasjons-API mot alle sluttbrukerens anmodninger før de blir sendt til Claude, sikrer at de ikke er skadelige [1].
* Omfattende sikkerhetstiltak antropiske setter opp et internt menneskelig gjennomgangssystem for å flagge spørsmål som er merket av Claude eller et moderasjons -API som skadelig, slik at de kan gripe inn for å begrense eller fjerne brukere med høye overtredelsesgrad [1].

Antropisk er også forpliktet til påliteligheten og tolkbarheten til AI -systemene, oppnådd gjennom streng forskning og anvendelse av avanserte sikkerhetsteknikker [2]. Et betydelig gjennombrudd i tolkbarhet er antropisk bruk av sparsomme autoencodere for 'monosemantic funksjonsekstraksjon', som forenkler komplekse nevrale nettverk til forståelige komponenter [2].

Sitasjoner:
[1] https://support.antropic.com/en/articles/9199617-api-trust-safety-tools
[2] https://klu.ai/glossary/anthropic-ai
[3] https://myscale.com/blog/transformative-influence-antropic-ai-safety-measures/
[4] https://www.antropic.com/news/frontier-model-sikkerhet
[5] https://support.antropic.com/no/articles/8106465-yr-approach-to-user-sikkerhet
[6] https://www.alignmentforum.org/posts/xhkr5ktvdjrssmej3/antropic-core- views-on-ai-safety
[7] https://www.antropic.com/news/anthropics-iresponsible-caling-policy
[8] https://engineeringIdas.substack.com/p/comments-on-antropics-ai-safety
[9] https://www.youtube.com/watch?v=e6_x0zoxvvi
[10] https://www.antropic.com/news/core-views-on-ai-safety

Svar fra forvirring: https://www.plexity.ai/search/how-does-antropic-esure-the.dwp39i9qu63n9c3qqw1va?utm_source=copy_output