Antropic využívá „odpovědnou politiku škálování“ (RSP) k řízení rizik spojených s stále schopnějšími modely AI [5]. Tato politika používá rámec zvaný AI Bezpečnostní úrovně (ASL), čerpající inspiraci ze standardů biologické bezpečnosti USA pro manipulaci s nebezpečnými biologickými materiály [5]. Rámec ASL je navržen tak, aby implementoval bezpečnost, zabezpečení a provozní standardy vhodné pro potenciál modelu pro katastrofické riziko, přičemž vyšší úrovně ASL vyžadují přísnější demonstrace bezpečnosti [5].
Nejlepší současné modely Anthropic jsou na ASL-2 [4]. Společnost definuje opatření zadržování a nasazení pro ASL-2 a ASL-3 a zaváže se definovat bezpečnostní opatření ASL-4 před tréninkem modelů ASL-3 [4]. ASL-1 odkazuje na systémy, které nepředstavují smysluplné katastrofické riziko [5].
Antropic je také investován do mechanistické interpretovatelnosti, která zahrnuje pitvu a porozumění vnitřním fungováním systémů AI, zejména modelů hlubokého učení, ve snaze učinit chování AI předvídatelné a pochopitelnější [5].
Citace:
[1] https://www.prompthub.us/blog/using-anthropic-best-pactices-parameters-and-large-context-windows
[2] https://www.techrepublic.com/article/anthropic-claude-large-language-model-research/
[3] https://aizi.substack.com/p/comments-on-anthropics-scaling-monosemanticity
[4] https://ailabwatch.org/companies/antropic/
[5] https://klu.ai/glossary/anthropic-ai
[6] https://help.promptoptitude.io/en/articles/8892919-Unstanding-Anthropic-Models-a-Simple-Guide
[7] https://www.anthropic.com/news/anthropics-respocible-scaling-policy
[8] https://www.lesswrong.com/posts/vaopgqhfpdjca8ceh/anthropic-reflections-on-our-responsible-scaling-policy