Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Як антроп забезпечує безпеку та надійність його гібридної моделі AI


Як антроп забезпечує безпеку та надійність його гібридної моделі AI


Антроп забезпечує безпеку та надійність ШІ за допомогою декількох заходів, включаючи тестування стресу, протоколи безпеки та відповідальну політику масштабування [1]. Вони використовують рівні безпеки AI (ASL), моделюючи за рівнем біобезпеки для визначення заходів безпеки на основі потенційних ризиків [2] [3].

Ключові компоненти підходу до безпеки антропіки:
* Відповідальна політика масштабування (RSP) Анропічна використовує систему рівня безпеки AI (ASL) [3]. Якщо система AI демонструє певні небезпечні можливості, антропік зобов'язується не розгортати її або не тренуватись більш потужні моделі до тих пір, поки не будуть реалізовані конкретні гарантії [3].
* Часті тестування антропічних тестів часто на небезпечні можливості через регулярні проміжки часу, щоб забезпечити несвідомо небезпечні можливості [3].
* Модельні оцінки, розроблені для виявлення небезпечних можливостей, ці оцінки виступають як консервативні "попереджувальні знаки", щоб запобігти випадково перевищувати критичні пороги безпеки [2]. Оцінки можуть складатися з множинних етапів складності, де пізніші етапи проходять лише за умови, що попередні оцінки показують попереджувальні знаки [2].
* Процедурні зобов’язання ASLS вказує, що повинно бути правдою для моделей та безпеки Antropic, щоб забезпечити безпечне навчання та розгортання [2].
* Моніторинг та журнал: для внутрішнього використання, генеровані результати та відповідні входи реєструються та зберігаються принаймні 30 днів. Ці журнали контролюються на ненормальну активність, а тривоги сприймаються серйозно і відгукуються на негайно [2].
* Багаторівневий доступ: У обмежених випадках моделі з можливостями, що стосуються катастрофічної шкоди достатній нагляд [2].
* Вразливість та розкриття інцидентів: антропік бере участь у процесі розкриття вразливості та інцидентів з іншими лабораторіями (за умови безпеки чи юридичних обмежень), що охоплює результати червоного командування, загрози національної безпеки та самостійні загрози реплікації [2].
* Швидка реакція на вразливості моделі: Якщо поінформовано про нещодавно виявлену вразливість моделі, що сприяє катастрофічній шкоді, антропічні зобов’язані негайно пом'якшити або виправити її [2].
* Двопартійний контроль: застосовується до всіх систем, що беруть участь у розробці, навчанні, хостингу та розгортанні моделей Frontier AI, це передбачає системну конструкцію, де жодна людина не має постійного доступу до критичних у виробничих умовах; Натомість вони повинні вимагати обмеженого часом доступ від колеги з обґрунтуванням бізнесу [8].
* Особливості безпеки користувачів Серед них моделі виявлення для прапора потенційно шкідливого контенту, фільтри безпеки на підказках та покращені фільтри безпеки для користувачів, які неодноразово порушують політику [7].

Antropic також використовує моделі виявлення для прапора потенційно шкідливих фільтрів змісту та безпеки на підказках [7]. Вони активно інвестують та експериментують з додатковими функціями безпеки та надають інструменти для пом'якшення шкоди, і вони заохочують користувачів надавати відгуки про ці заходи [7].

Цитати:
[1] https://myscale.com/blog/transformative-influence-antropic-ai-safety-measures/
[2.
[3] https://www.antropic.com/news/uk-ai-safety-summit
[4] https://accelerationeconomy.com/ai/antropic-leads-the-dage-in-ai-safety-and-performance/
[5] https://www.antropic.com/news/core-views-on-ai-safety
[6] https://engineeringideas.substack.com/p/comments-on-anthropics-ai-safety
[7] https://support.antropic.com/en/articles/8106465-our-aproach-to-user-safety
[8] https://www.antropic.com/news/frontier-model-security

Відповідь від здивування: https://www.perplexity.ai/search/how-does-antropic-ensure-the-z927kvgrtc2t99qtutgsza?utm_source=copy_output