Anthropic säkerställer säkerheten för sina AI -modeller genom olika tekniker och policyer, inklusive den ansvariga skalningspolicyn (RSP), AI -säkerhetsnivåer (ASL), säkerhetsfilter och detekteringsmodeller [2] [5]. Användarsäkerhet är centralt för Anthropics uppdrag att skapa pålitliga, tolkbara och styrbara AI -system [5].
Viktiga säkerhetsåtgärder:
* Ansvarig skalningspolicy (RSP) Anthropic utvecklade RSP för att hantera risker kopplade till allt mer kapabla AI -modeller [2]. Politiken introducerar en ram som kallas AI -säkerhetsnivåer (ASL) och hämtar inspiration från den amerikanska regeringens BiosAfety Level (BSL) -standarder som används för att hantera farliga biologiska material [2] [7]. RSP har formellt godkänts av Anthropic's Board, och eventuella ändringar av policyn måste också godkännas av styrelsen [2].
* AI -säkerhetsnivåer (ASL) ASL -ramverket är utformat för att säkerställa att säkerhets-, säkerhets- och driftsstandarder är lämpliga för modellens potential för katastrofisk risk [2] [7]. Högre ASL -nivåer kräver strängare demonstrationer av säkerhet [2]. Politiken balanserar det ekonomiska och sociala värdet av AI med behovet av att mildra allvarliga risker, särskilt katastrofala risker som kan uppstå genom medvetet missbruk eller oavsiktligt destruktivt beteende av själva modellerna [2].
* Säkerhetsfilter Anthropic använder säkerhetsfilter på instruktioner, som kan blockera svar från modellen när deras detekteringsmodeller flaggar innehåll som skadligt [5]. De har också förbättrade säkerhetsfilter, som gör det möjligt för dem att öka känsligheten för deras detekteringsmodeller [5]. Anthropic kan tillfälligt tillämpa förbättrade säkerhetsfilter för användare som upprepade gånger bryter mot deras policyer och tar bort dessa kontroller efter en period av inga eller få överträdelser [5].
* Detektionsmodeller Anthropic använder detekteringsmodeller som flaggar potentiellt skadligt innehåll baserat på deras användningspolicy [5].
Ytterligare skyddsåtgärder:
* Grundläggande skyddsåtgärder Dessa inkluderar lagrings -ID: er kopplade till varje API -samtal för att fastställa specifikt våldsamt innehåll och tilldela ID till användare att spåra individer som bryter mot Anthropics AUP [1]. De säkerställer också att kunder förstår tillåtna användningsområden och överväger att kräva att kunder registrerar sig för ett konto på deras plattform innan de använder Claude [1].
* Mellanprodukter Anthropic skapar anpassningsramar som begränsar slutanvändarinteraktioner med Claude till en begränsad uppsättning av instruktioner eller bara tillåter Claude att granska ett specifikt kunskapskorpus, vilket minskar användarnas förmåga att engagera sig i våldsamt beteende [1]. De möjliggör också ytterligare säkerhetsfilter, som är gratis måttligt måttligt verktyg som byggs av Anthropic för att hjälpa till att upptäcka potentiellt skadliga instruktioner och hantera realtidsåtgärder för att minska skada [1].
* Avancerade skyddsåtgärder som driver ett moderation API mot alla slutanvändares instruktioner innan de skickas till Claude säkerställer att de inte är skadliga [1].
* Omfattande skyddsåtgärder Antropiska ställer in ett internt mänskligt granskningssystem för att flagga uppmaningar som är präglade av Claude eller ett moderation API som skadligt, så att de kan ingripa för att begränsa eller ta bort användare med höga överträdelser [1].
Anthropic är också engagerad i tillförlitligheten och tolkbarheten för dess AI -system, uppnås genom strikt forskning och tillämpning av avancerade säkerhetstekniker [2]. Ett betydande genombrott i tolkbarhet är Anthropics användning av glesa autoencoders för "monosemantisk funktionsekstraktion", vilket förenklar komplexa neurala nätverk till förståelige komponenter [2].
Citeringar:
[1] https://support.anthropic.com/en/articles/9199617-api-trust-safety-ofools
[2] https://klu.ai/glossary/antropic-ai
[3] https://myscale.com/blog/transformative-influence-anthropic-ai-safety-maesures/
[4] https://www.antropic.com/news/frontier-model-security
[5] https://support.antropic.com/en/articles/8106465-our-approach-to-user-safety
]
[7] https://www.antropic.com/news/antropics-sonsible-scaling-policy
[8] https://engineeringideas.substack.com/p/comments-on-antropics-ai-safety
[9] https://www.youtube.com/watch?v=e6_x0zoxvvi
[10] https://www.antropic.com/news/core-views-on-ai-safety