Anpropic использует «ответственную политику масштабирования» (RSP) для управления рисками, связанными со все более способными моделями ИИ [5]. В этой политике используется структура, называемая уровнями безопасности ИИ (ASL), черпая вдохновение из стандартов уровня биобезопасности правительства США для обработки опасных биологических материалов [5]. Структура ASL предназначена для реализации стандартов безопасности, безопасности и эксплуатации, подходящих для потенциала модели для катастрофического риска, при этом более высокие уровни ASL требуют более строгих демонстраций безопасности [5].
Лучшие текущие модели Антропика-ASL-2 [4]. Компания определяет меры сдерживания и развертывания для ASL-2 и ASL-3, и она обязуется определить меры безопасности ASL-4 перед обучением моделей ASL-3 [4]. ASL-1 относится к системам, которые не представляют собой значимый катастрофический риск [5].
Антропический также инвестируется в механистическую интерпретацию, которая включает в себя анализ и понимание внутренней работы систем ИИ, особенно моделей глубокого обучения, в попытке сделать поведение ИИ более предсказуемым и понятным [5].
Цитаты:
[1] https://www.prompthub.us/blog/using-anthropic-best-practices-parameters-andwarge-context-windows
[2] https://www.techrepublic.com/article/anthropic-claude-large-language-model-research/
[3] https://aizi.substack.com/p/comments-on-anpropics-caling-monosemanticity
[4] https://ailabwatch.org/companies/anthropic/
[5] https://klu.ai/glossary/anthropic-ai
[6] https://help.promptitude.io/en/articles/8892919-stresting-anpropic-models-a-simple-guide
[7] https://www.anthropic.com/news/anthpics-recessible-scalling-policy
[8] https://www.lesswrong.com/posts/vaopgqhfpdjca8ceh/anthropic-reflections-on-our-respensible-scalling-policy