Antropisk benytter en "ansvarlig skaleringspolitikk" (RSP) for å håndtere risikoer knyttet til stadig mer dyktige AI -modeller [5]. Denne policyen bruker et rammeverk kalt AI -sikkerhetsnivåer (ASL), og henter inspirasjon fra den amerikanske regjeringens standarder for biosikkerhetsnivå for å håndtere farlige biologiske materialer [5]. ASL -rammeverket er designet for å implementere sikkerhets-, sikkerhets- og driftsstandarder som er tilpasset en modells potensial for katastrofal risiko, med høyere ASL -nivåer som krever strengere demonstrasjoner av sikkerhet [5].
Anthropics beste nåværende modeller er på ASL-2 [4]. Selskapet definerer inneslutnings- og distribusjonstiltak for ASL-2 og ASL-3, og det forplikter seg til å definere ASL-4 sikkerhetstiltak før trening ASL-3-modeller [4]. ASL-1 refererer til systemer som ikke utgjør noen meningsfull katastrofal risiko [5].
Antropisk er også investert i mekanistisk tolkbarhet, som innebærer å dissekere og forstå den interne virkningen av AI -systemer, spesielt dype læringsmodeller, i et forsøk på å gjøre AI -atferd mer forutsigbar og forståelig [5].
Sitasjoner:
[1] https://www.prompthub.us/blog/using-antropic-best-practices-parameters-and--large-context-windows
[2] https://www.techrepublic.com/article/anthropic-claude-large-anguage-model-research/
[3] https://aizi.substack.com/p/comments-on-antropics-scaling-monosemanticity
[4] https://ailabwatch.org/companies/anthropic/
[5] https://klu.ai/glossary/anthropic-ai
[6] https://help.promptitude.io/no/articles/8892919-forståelse-antropisk-smodels-a-simple-guide
[7] https://www.antropic.com/news/anthropics-iresponsible-caling-policy
[8] https://www.lesswrong.com/posts/vaopgqhfpdjca8ceh/antropic-refleksjoner-on-re-ponsible-caling-policy