Jak funguje posuvná stupnice v modelu Anthropic

Antropic využívá „odpovědnou politiku škálování“ (RSP) k řízení rizik spojených s stále schopnějšími modely AI [5]. Tato politika používá rámec zvaný AI Bezpečnostní úrovně (ASL), čerpající inspiraci ze standardů biologické bezpečnosti USA pro manipulaci s nebezpečnými biologickými materiály [5]. Rámec ASL je navržen tak, aby implementoval bezpečnost, zabezpečení a provozní standardy vhodné pro potenciál modelu pro katastrofické riziko, přičemž vyšší úrovně ASL vyžadují přísnější demonstrace bezpečnosti [5].

Nejlepší současné modely Anthropic jsou na ASL-2 [4]. Společnost definuje opatření zadržování a nasazení pro ASL-2 a ASL-3 a zaváže se definovat bezpečnostní opatření ASL-4 před tréninkem modelů ASL-3 [4]. ASL-1 odkazuje na systémy, které nepředstavují smysluplné katastrofické riziko [5].

Antropic je také investován do mechanistické interpretovatelnosti, která zahrnuje pitvu a porozumění vnitřním fungováním systémů AI, zejména modelů hlubokého učení, ve snaze učinit chování AI předvídatelné a pochopitelnější [5].

Citace:
[1] https://www.prompthub.us/blog/using-anthropic-best-pactices-parameters-and-large-context-windows
[2] https://www.techrepublic.com/article/anthropic-claude-large-language-model-research/
[3] https://aizi.substack.com/p/comments-on-anthropics-scaling-monosemanticity
[4] https://ailabwatch.org/companies/antropic/
[5] https://klu.ai/glossary/anthropic-ai
[6] https://help.promptoptitude.io/en/articles/8892919-Unstanding-Anthropic-Models-a-Simple-Guide
[7] https://www.anthropic.com/news/anthropics-respocible-scaling-policy
[8] https://www.lesswrong.com/posts/vaopgqhfpdjca8ceh/anthropic-reflections-on-our-responsible-scaling-policy

Odpověď od zmatení: https://www.perplexity.ai/search/how-does-the-sliding-scale-4flsMynqgiBu47rvk8b7g?utm_source=copy_output