Anthropic använder en "ansvarsfull skalningspolicy" (RSP) för att hantera risker kopplade till allt mer kapabla AI -modeller [5]. Denna policy använder en ram som kallas AI -säkerhetsnivåer (ASL) och hämtar inspiration från den amerikanska regeringens biosäkerhetsnivåstandarder för att hantera farliga biologiska material [5]. ASL -ramverket är utformat för att implementera säkerhets-, säkerhets- och operativa standarder som är lämpade för en modells potential för katastrofisk risk, med högre ASL -nivåer som kräver strängare demonstrationer av säkerhet [5].
Anthropics bästa nuvarande modeller är på ASL-2 [4]. Företaget definierar inneslutnings- och distributionsåtgärder för ASL-2 och ASL-3, och det förbinder sig att definiera ASL-4-säkerhetsåtgärder innan du tränar ASL-3-modeller [4]. ASL-1 hänvisar till system som inte utgör någon meningsfull katastrofisk risk [5].
Anthropic investeras också i mekanistisk tolkbarhet, vilket innebär att dissekera och förstå de interna arbetena i AI -system, särskilt djupa inlärningsmodeller, i ett försök att göra AI -beteende mer förutsägbart och förståeligt [5].
Citeringar:
]
[2] https://www.techrepublic.com/article/anthropic-claude-large-language-model-research/
[3] https://aizi.substack.com/p/comments-on-antropics-scaling-monosemanticity
[4] https://ailabwatch.org/companies/anthropic/
[5] https://klu.ai/glossary/antropic-ai
[6] https://help.promptitude.io/en/articles/8892919-förståelse-antropic-models-a-simple-guide
[7] https://www.antropic.com/news/antropics-sonsible-scaling-policy
]