Антроп забезпечує безпеку та надійність ШІ за допомогою декількох заходів, включаючи тестування стресу, протоколи безпеки та відповідальну політику масштабування [1]. Вони використовують рівні безпеки AI (ASL), моделюючи за рівнем біобезпеки для визначення заходів безпеки на основі потенційних ризиків [2] [3].
Ключові компоненти підходу до безпеки антропіки:
* Відповідальна політика масштабування (RSP) Анропічна використовує систему рівня безпеки AI (ASL) [3]. Якщо система AI демонструє певні небезпечні можливості, антропік зобов'язується не розгортати її або не тренуватись більш потужні моделі до тих пір, поки не будуть реалізовані конкретні гарантії [3].
* Часті тестування антропічних тестів часто на небезпечні можливості через регулярні проміжки часу, щоб забезпечити несвідомо небезпечні можливості [3].
* Модельні оцінки, розроблені для виявлення небезпечних можливостей, ці оцінки виступають як консервативні "попереджувальні знаки", щоб запобігти випадково перевищувати критичні пороги безпеки [2]. Оцінки можуть складатися з множинних етапів складності, де пізніші етапи проходять лише за умови, що попередні оцінки показують попереджувальні знаки [2].
* Процедурні зобов’язання ASLS вказує, що повинно бути правдою для моделей та безпеки Antropic, щоб забезпечити безпечне навчання та розгортання [2].
* Моніторинг та журнал: для внутрішнього використання, генеровані результати та відповідні входи реєструються та зберігаються принаймні 30 днів. Ці журнали контролюються на ненормальну активність, а тривоги сприймаються серйозно і відгукуються на негайно [2].
* Багаторівневий доступ: У обмежених випадках моделі з можливостями, що стосуються катастрофічної шкоди достатній нагляд [2].
* Вразливість та розкриття інцидентів: антропік бере участь у процесі розкриття вразливості та інцидентів з іншими лабораторіями (за умови безпеки чи юридичних обмежень), що охоплює результати червоного командування, загрози національної безпеки та самостійні загрози реплікації [2].
* Швидка реакція на вразливості моделі: Якщо поінформовано про нещодавно виявлену вразливість моделі, що сприяє катастрофічній шкоді, антропічні зобов’язані негайно пом'якшити або виправити її [2].
* Двопартійний контроль: застосовується до всіх систем, що беруть участь у розробці, навчанні, хостингу та розгортанні моделей Frontier AI, це передбачає системну конструкцію, де жодна людина не має постійного доступу до критичних у виробничих умовах; Натомість вони повинні вимагати обмеженого часом доступ від колеги з обґрунтуванням бізнесу [8].
* Особливості безпеки користувачів Серед них моделі виявлення для прапора потенційно шкідливого контенту, фільтри безпеки на підказках та покращені фільтри безпеки для користувачів, які неодноразово порушують політику [7].
Antropic також використовує моделі виявлення для прапора потенційно шкідливих фільтрів змісту та безпеки на підказках [7]. Вони активно інвестують та експериментують з додатковими функціями безпеки та надають інструменти для пом'якшення шкоди, і вони заохочують користувачів надавати відгуки про ці заходи [7].
Цитати:
[1] https://myscale.com/blog/transformative-influence-antropic-ai-safety-measures/
[2.
[3] https://www.antropic.com/news/uk-ai-safety-summit
[4] https://accelerationeconomy.com/ai/antropic-leads-the-dage-in-ai-safety-and-performance/
[5] https://www.antropic.com/news/core-views-on-ai-safety
[6] https://engineeringideas.substack.com/p/comments-on-anthropics-ai-safety
[7] https://support.antropic.com/en/articles/8106465-our-aproach-to-user-safety
[8] https://www.antropic.com/news/frontier-model-security