Антропік забезпечує безпеку своїх моделей AI за допомогою різних методик та політики, включаючи відповідальну політику масштабування (RSP), рівень безпеки AI (ASL), фільтри безпеки та моделі виявлення [2] [5]. Безпека користувачів є центральною у місії антропіки створення надійних, інтерпретаційних та керуючих систем AI [5].
Ключові заходи безпеки:
* Відповідальна політика масштабування (RSP) Анропічна розробила RSP для управління ризиками, пов'язаними з все більш здатними моделями AI [2]. Політика вводить рамки під назвою рівень безпеки AI (ASL), черпаючи натхнення з стандартів уряду США уряду (BSL), які використовуються для обробки небезпечних біологічних матеріалів [2] [7]. RSP був офіційно затверджений правлінням Antropic, і будь -які зміни в політиці також повинні бути затверджені Радою [2].
* Рівні безпеки AI (ASL) Рамка ASL призначена для того, щоб забезпечити, щоб стандарти безпеки, безпеки та експлуатації відповідали потенціалу моделі для катастрофічного ризику [2] [7]. Більш високі рівні ASL вимагають більш жорстких демонстрацій безпеки [2]. Політика врівноважує економічну та соціальну цінність ШІ з необхідністю зменшити серйозні ризики, особливо катастрофічні ризики, які можуть виникнути внаслідок навмисного зловживання або ненавмисної руйнівної поведінки самих моделей [2].
* Фільтри безпеки Anthropic використовує фільтри безпеки на підказках, які можуть блокувати відповіді з моделі, коли їх моделі виявлення вмісту прапора вміст позначають як шкідливий [5]. Вони також мають посилені фільтри безпеки, які дозволяють їм підвищити чутливість моделей виявлення [5]. Антропік може тимчасово застосовувати покращені фільтри безпеки для користувачів, які неодноразово порушують свою політику, та видаляти ці контроль після періоду відсутності або мало порушень [5].
* Моделі виявлення Anthropic використовують моделі виявлення, які позначають потенційно шкідливий контент на основі їх політики використання [5].
Додаткові гарантії:
* Основні гарантії Серед зберігання ідентифікаторів, пов’язаних з кожним викликом API, щоб визначити конкретний порушений вміст та призначати ідентифікатори користувачам відстежувати осіб, які порушують AUP антропію [1]. Вони також гарантують, що клієнти розуміють дозволене використання та розглядають можливість вимагати від клієнтів реєструватися на обліковий запис на своїй платформі, перш ніж використовувати Claude [1].
* Проміжні гарантії антропіки створюють рамки налаштування, які обмежують взаємодію кінцевих користувачів з Клодом до обмеженого набору підказок або дозволяють Клоду переглянути конкретний корпус знань, зменшуючи здатність користувачів займатися порушною поведінкою [1]. Вони також дозволяють додаткові фільтри безпеки, які є безкоштовним інструментом помірності в режимі реального часу, побудованим антропом для сприяння виявленню потенційно шкідливих підказок та управління діями в режимі реального часу для зменшення шкоди [1].
* Просунуті гарантії, що керують помірним API проти всіх підказок кінцевих користувачів, перш ніж їх відправити до Клода, гарантує, що вони не шкідливі [1].
* Комплексні гарантії антропічні встановлюють внутрішню систему огляду людини для прапора підказки, які позначені Клодом або API поміркованості як шкідливими, щоб вони могли втрутитися, щоб обмежити або видалити користувачів з високими рівнями порушення [1].
Антропік також прагне до надійності та інтерпретації його систем AI, досягнутого за допомогою суворого дослідження та застосування передових методик безпеки [2]. Значним проривом в інтерпретації є використання розріджених автокодерів антропічного для "моземантичного вилучення функцій", що спрощує складні нейронні мережі в зрозумілі компоненти [2].
Цитати:
[1] https://support.antropic.com/en/articles/9199617-api-trust-safety-tools
[2] https://klu.ai/glossary/antropic-ai
[3] https://myscale.com/blog/transformative-influence-antropic-ai-safety-measures/
[4] https://www.antropic.com/news/frontier-model-security
[5] https://support.antropic.com/en/articles/8106465-our-aproach-to-user-safety
[6] https://www.alignmentforum.org/posts/xhkr5ktvdjrssmej3/antropic-score-views-on-ai-safety
[7] https://www.antropic.com/news/anthropics-ressible-scaling-policy
[8] https://engineeringideas.substack.com/p/comments-on-anthropics-ai-safety
[9] https://www.youtube.com/watch?v=e6_x0zoxvvi
[10] https://www.antropic.com/news/core-views-on-ai-safety