Anthropic využíva „zodpovednú politiku škálovania“ (RSP) na správu rizík spojených s čoraz viac schopnými modelmi AI [5]. Táto politika využíva rámec nazývaný úroveň bezpečnosti AI (ASL), čím sa inšpiruje štandardmi úrovne biologickej bezpečnosti vlády USA pre manipuláciu s nebezpečnými biologickými materiálmi [5]. Rámec ASL je navrhnutý tak, aby implementoval bezpečnostné, bezpečnostné a prevádzkové normy vhodné pre potenciál modelu pre katastrofické riziko, pričom vyššie úrovne ASL si vyžadujú prísnejšie demonštrácie bezpečnosti [5].
Najlepšie súčasné modely Anthropic sú na ASL-2 [4]. Spoločnosť definuje opatrenia na zadržiavanie a nasadenie pre ASL-2 a ASL-3 a zaväzuje sa definovať bezpečnostné opatrenia ASL-4 pred výcvikom modelov ASL-3 [4]. ASL-1 sa vzťahuje na systémy, ktoré nepredstavujú žiadne zmysluplné katastrofické riziko [5].
Anthropic sa investuje aj do mechanickej interpretovateľnosti, ktorá zahŕňa rozpad a porozumenie vnútorným fungovaním systémov AI, najmä modelov hlbokého učenia, v snahe urobiť predvídateľnejšie a zrozumiteľnejšie správanie AI [5].
Citácie:
[1] https://www.prompthub.us/blog/using-anthropic-best-practices-parameters-and-arge-context-windows
[2] https://www.techrepublic.com/article/anthropic-claude-large-manguage-model-research/
[3] https://aizi.substack.com/p/comments-on-on-anthropics-scaling-Monosemantickosť
[4] https://ilabwatch.org/companies/anthropic/
[5] https://klu.ai/glossary/anthropic-ai
[6] https://help.promptitude.io/en/articles/8892919-Denstanding-anthropic-models-a-simple-guide
[7] https://www.anthropic.com/news/anthropics-reponsible-scaling-policy
[8] https://www.lesswrong.com/posts/vaopgqhfpdjca8ceh/anthropic-reflections-on-on-our-Responsible-scaling-policy