Anthropic anvender en "ansvarlig skaleringspolitik" (RSP) til at styre risici, der er knyttet til stadig mere dygtige AI -modeller [5]. Denne politik bruger en ramme kaldet AI Safety Niveauer (ASL), der henter inspiration fra den amerikanske regerings standarder for biosikkerhedsniveau til håndtering af farlige biologiske materialer [5]. ASL -rammen er designet til at implementere sikkerheds-, sikkerheds- og operationelle standarder, der er egnet til en modells potentiale for katastrofal risiko, med højere ASL -niveauer, der kræver strengere demonstrationer af sikkerhed [5].
Anthropics bedste nuværende modeller er på ASL-2 [4]. Virksomheden definerer indeslutnings- og implementeringsforanstaltninger for ASL-2 og ASL-3, og det forpligter sig til at definere ASL-4-sikkerhedsforanstaltninger før uddannelse af ASL-3-modeller [4]. ASL-1 henviser til systemer, der ikke udgør nogen meningsfuld katastrofal risiko [5].
Antropisk investeres også i mekanistisk fortolkbarhed, som involverer dissekering og forståelse af de interne arbejde i AI -systemer, især dybe læringsmodeller, i et forsøg på at gøre AI -opførsel mere forudsigelig og forståelig [5].
Citater:
[1] https://www.prompthub.us/blog/using-antropic-best-practices-parameters-and-large-context-windows
)
[3] https://aizi.substack.com/p/comments-on-antropics-scaling-monosemanticity
[4] https://ailabwatch.org/companies/anthropic/
[5] https://klu.ai/glossary/anthropic-i
[6] https://help.promptitude.io/en/articles/8892919-forstående-antropiske-modeller-a-enkel-guide
[7] https://www.anthropic.com/news/anthropics-responsible-scaling-policy
[8] https://www.lesswrong.com/posts/vaopgqhfpdjca8ceh/anthropic-reflections- på-our-responsible-scaling-policy