Как Anpropic обеспечивает безопасность и надежность своей гибридной модели искусственного интеллекта

Антропический обеспечивает безопасность и надежность ИИ через несколько мер, включая стресс -тестирование, протоколы безопасности и ответственную политику масштабирования [1]. Они используют уровни безопасности ИИ (ASL), моделируемые после уровня биобезопасности, для определения мер безопасности на основе потенциальных рисков [2] [3].

Ключевые компоненты подхода к безопасности Антропика:
* Ответственная политика масштабирования (RSP) Anpropic использует систему уровней безопасности ИИ (ASL) [3]. Если система искусственного интеллекта демонстрирует определенные опасные возможности, антропические коммиты не развертывают ее или обучают более мощные модели до тех пор, пока не будут реализованы конкретные гарантии [3].
* Часто тестирование антропных тестов часто на опасные возможности через регулярные промежутки времени, чтобы гарантировать, что опасные возможности не создаются неосознанно [3].
* Оценки моделей, предназначенные для обнаружения опасных возможностей, эти оценки действуют как консервативные «предупреждающие знаки» для предотвращения случайного превышения критических порогов безопасности [2]. Оценки могут состоять из множественных этапов сложности, где более поздние этапы проводятся только в том случае, если в более ранних оценках показаны предупреждающие признаки [2].
* Процедурные обязательства.
* Мониторинг и ведение журнала: для внутреннего использования сгенерированные выходы и соответствующие входы регистрируются и сохраняются в течение не менее 30 дней. Эти журналы контролируются на предмет ненормальной деятельности, и тревоги воспринимаются всерьез и реагируют на быстро [2].
* Многоуровневый доступ: в ограниченных случаях модели с возможностями, относящимися к катастрофическому вреду, могут быть доступны для избранной группы проверенных пользователей с законным и полезным использованием, который не может быть отделен от опасных возможностей, при условии, что доступ может быть предоставлен безопасным и с Достаточный надзор [2].
* Уязвимость и раскрытие инцидентов: Антрия участвует в процессе раскрытия уязвимости и инцидентов с другими лабораториями (в соответствии с безопасностью или юридическими ограничениями), который охватывает результаты красной команды, угрозы национальной безопасности и угрозы автономной репликации [2].
* Быстрый ответ на уязвимости модели: когда информируется о недавно обнаруженной модельной уязвимости, способствующей катастрофическому вреду, антропные коммиты смягчают или быстро ее смягчают или исправляют ее [2].
* Двухпартийное управление: применяется ко всем системам, участвующим в разработке, обучении, размещении и развертывании моделей Frontier AI, это включает в себя проектирование системы, в которой ни один человек не имеет постоянного доступа к критически важной средам; Вместо этого они должны запросить ограниченный по времени доступ у коллеги с бизнесом [8].
* Функции безопасности пользователей. К ним относятся модели обнаружения для помещения потенциально вредного содержания, фильтры безопасности в подсказках и расширенные фильтры безопасности для пользователей, которые неоднократно нарушают политики [7].

Anpropic также использует модели обнаружения для помещения потенциально вредного содержания и фильтров безопасности на подсказках [7]. Они активно инвестируют и экспериментируют с дополнительными функциями безопасности и предоставляют инструменты для смягчения вреда, и они поощряют пользователей предоставлять обратную связь по этим мерам [7].

Цитаты:
[1] https://myscale.com/blog/transformative-influence-anpropic-ai-safety-measures/
[2] https://www-cdn.anthropic.com/1adf000c8f675958c2ee23805d91aaade1cd4613/responsible-scalling-policy.pdf
[3] https://www.anthropic.com/news/uk-ai-safety-summit
[4] https://accelerationeconomy.com/ai/anthropic-leads-the-arge-in-ai-safety-and-performance/
[5] https://www.anthropic.com/news/core-views-on--ai-sare
[6] https://engineeringideas.substack.com/p/comments-on-anpropics-ai-sarece
[7] https://support.anthropic.com/en/articles/8106465-our-proach-to-user-sare
[8] https://www.anthropic.com/news/frontier-model-security

Ответ от недоумения: https://www.perplexity.ai/search/how-does-anpropic-ensure-the-z927kvgrtc2t99qtutgsza?utm_source=copy_output