Як працює функція розсувної шкали в моделі Anthropic

Антропічний використовує "політику відповідального масштабування" (RSP) для управління ризиками, пов'язаними з все більш здатними моделями AI [5]. Ця політика використовує рамки під назвою рівень безпеки AI (ASL), чергуючи натхнення з стандартів уряду США щодо рівня біологічної матеріали уряду [5]. Рамка ASL призначена для впровадження стандартів безпеки, безпеки та експлуатації, що підходять для потенціалу моделі для катастрофічного ризику, при цьому більш високий рівень ASL вимагає більш жорстких демонстрацій безпеки [5].

Найкращі сучасні моделі Antropic-це ASL-2 [4]. Компанія визначає заходи щодо стримування та розгортання для ASL-2 та ASL-3, і вона зобов'язується визначати заходи безпеки ASL-4 перед тренуванням моделей ASL-3 [4]. ASL-1 відноситься до систем, які не становлять змістовного катастрофічного ризику [5].

Антропік також вкладається в механістичну інтерпретацію, яка передбачає розсічення та розуміння внутрішньої роботи систем ШІ, особливо глибоких моделей навчання, намагаючись зробити поведінку ШІ більш передбачуваною та зрозумілою [5].

Цитати:
[1] https://www.prompthub.us/blog/using-antropic-best-practices-parameters-and-large-context-windows
[2] https://www.techrepublic.com/article/antropic-claude-large-language-model-research/
[3] https://aizi.substack.com/p/comments-on-anthropics-scaling-monosemanticity
[4] https://ailabwatch.org/companies/antropic/
[5] https://klu.ai/glossary/antropic-ai
[6] https://help.promptitude.io/en/articles/8892919-erstanding-antropic-models-a-simple-guide
[7] https://www.antropic.com/news/anthropics-ressible-scaling-policy
[8] https://www.lesswrong.com/posts/vaopgqhfpdjca8ceh/antropic-reflections-on-our-ressible-scaling-policy

Відповідь від здивування: https://www.perplexity.ai/search/how-does-the-sliding-scale-fea-4flssmynqgibu47rvk8b7g?utm_source=copy_output