Anthropic은 스트레스 테스트, 안전 프로토콜 및 책임 스케일링 정책을 포함한 여러 측정을 통해 AI 안전 및 신뢰성을 보장합니다 [1]. 생물 안전 수준을 모델로 한 AIS 안전 수준 (ASL)을 활용하여 잠재적 위험에 기초한 안전 조치를 결정한다 [2] [3].
Anthropic의 안전 접근 방식의 주요 구성 요소 :
* 책임있는 스케일링 정책 (RSP)의 의인화는 AI 안전 수준 (ASL) 시스템을 사용합니다 [3]. AI 시스템이 특정 위험한 기능을 보여 주면, 인류는 특정 보호 조치가 구현 될 때까지 더 강력한 모델을 배포하지 않거나 더 강력한 모델을 훈련시키기 위해 노력합니다 [3].
* 위험한 기능이 무의식적으로 생성되지 않도록 정기적으로 위험한 기능을 위해 자주 테스트하는 의인성 테스트를 자주 테스트합니다 [3].
* 위험한 기능을 감지하기 위해 설계된 모델 평가는 실수로 중요한 안전 임계 값을 초과하는 보수적 인 "경고 표시"역할을합니다 [2]. 평가는 여러 난이도 단계로 구성 될 수 있으며,이 단계는 이전 평가에 경고 표시가 표시되는 경우에만 실행됩니다 [2].
* 절차 적 약속 ASL은 안전한 훈련 및 배치를 허용하기 위해 Anthropic의 모델과 보안의 진실이 무엇인지 지정합니다 [2].
* 모니터링 및 로깅 : 내부 사용의 경우 생성 된 출력 및 해당 입력이 최소 30 일 동안 기록되고 유지됩니다. 이 로그는 비정상적인 활동에 대해 모니터링되며 경보는 심각하게 받아 들여지고 즉시 응답합니다 [2].
* 계층 액세스 : 제한된 경우, 치명적인 피해와 관련된 기능을 갖춘 기능이 제한된 경우, 액세스가 안전하고이를 안전하게 부여 할 수있는 경우 위험한 기능과 분리 될 수없는 합법적이고 유익한 사용 사례를 가진 선정 된 심사 사용자 그룹에게 제공 될 수 있습니다. 충분한 감독 [2].
* 취약성 및 사고 공개 : 인류는 적색 팀 밍 결과, 국가 보안 위협 및 자율적 복제 위협을 다루는 다른 실험실 (보안 또는 법적 제약에 따라)과의 취약성 및 사고 공개 프로세스에 관여합니다 [2].
* 모델 취약성에 대한 빠른 반응 : 새로 발견 된 모델 취약성에 대한 정보를 제공 할 때, 인류는 즉시 완화하거나 패치하기 위해 노력합니다 [2].
* 2 자 제어 : 프론티어 AI 모델의 개발, 교육 및 배포와 관련된 모든 시스템에 적용되면, 여기에는 한 사람이 생산-중요 환경에 지속적으로 액세스 할 수없는 시스템 설계가 포함됩니다. 대신, 비즈니스 정당화를 통해 동료에게 시간 제한 액세스를 요청해야합니다 [8].
* 사용자 안전 기능에는 잠재적 인 유해한 컨텐츠를 표시하기위한 탐지 모델, 프롬프트에 대한 안전 필터 및 정책을 반복적으로 위반하는 사용자를위한 향상된 안전 필터가 포함됩니다 [7].
Anthropic은 또한 탐지 모델을 사용하여 잠재적으로 유해한 함량 및 안전 필터를 프롬프트에 플래그합니다 [7]. 그들은 추가 안전 기능에 적극적으로 투자하고 실험하고 피해를 완화하는 도구를 제공하고 있으며 사용자가 이러한 조치에 대한 피드백을 제공하도록 권장합니다 [7].
인용 :
[1] https://myscale.com/blog/transformative-influence-anthropic-ai-safety-measures/
[2] https://www-cdn.anthropic.com/1adf000c8f675958c2ee23805d91aaade1cd4613/responsible-scaling-policy.pdf
[3] https://www.anthropic.com/news/uk-ai-safety-summit
[4] https://accelerationeconomy.com/ai/anthropic-leads-shange-in-ai-safety-and-performance/
[5] https://www.anthropic.com/news/core-views-on-ai-safety
[6] https://engineeringideas.substack.com/p/comments-on-anthropics-ai-safety
[7] https://support.anthropic.com/en/articles/8106465-oul-oproach-to-user-safety
[8] https://www.anthropic.com/news/frontier-model-security