anthropic은 책임 스케일링 정책 (RSP), AIS 안전 수준 (ASL), 안전 필터 및 탐지 모델을 포함한 다양한 기술 및 정책을 통해 AI 모델의 안전을 보장합니다 [2] [5]. 사용자 안전은 신뢰할 수 있고 해석 가능하며 조향 가능한 AI 시스템을 만들기위한 Anthropic의 사명의 핵심입니다 [5].
주요 안전 조치 :
* 책임있는 스케일링 정책 (RSP)의 Anthropic은 점점 더 유능한 AI 모델과 관련된 위험을 관리하기 위해 RSP를 개발했습니다 [2]. 이 정책은 위험한 생물학적 재료를 처리하는 데 사용되는 미국 정부의 BSL (Bios Affety Level) 표준에서 영감을 얻은 AI 안전 수준 (ASL)이라는 프레임 워크를 소개합니다 [2] [7]. RSP는 공식적으로 Anthropic의 이사회에 의해 승인되었으며, 정책에 대한 모든 변경 사항은 이사회의 승인을 받아야합니다 [2].
* AIS 안전 수준 (ASL) ASL 프레임 워크는 안전, 보안 및 운영 표준이 치명적인 위험에 대한 모델의 잠재력에 적합하도록 설계되었습니다 [2] [7]. ASL 수준이 높을수록 안전에 대한보다 엄격한 시연이 필요합니다 [2]. 이 정책은 AI의 경제적, 사회적 가치와 심각한 위험을 완화해야 할 필요성, 특히 모델 자체에 의한 고의적 인 오용 또는 의도하지 않은 파괴적인 행동으로 인해 발생할 수있는 치명적인 위험을 완화시켜야한다 [2].
* 안전 필터는 프롬프트에 안전 필터를 사용하여 탐지 모델이 컨텐츠를 유해한 것으로 표시 할 때 모델의 응답을 차단할 수 있습니다 [5]. 또한 향상된 안전 필터가있어 탐지 모델의 감도를 높일 수 있습니다 [5]. 인류는 정책을 반복적으로 위반 한 사용자에게 일시적으로 향상된 안전 필터를 적용하고 위반이 없거나 적은 기간이 지나면 이러한 제어를 제거 할 수 있습니다 [5].
* 탐지 모델의 의도 모델은 사용 정책에 따라 잠재적으로 유해한 콘텐츠를 표시하는 탐지 모델을 사용합니다 [5].
추가 보호 수단 :
* 기본 보호 조치에는 각 API 호출과 링크 된 ID를 저장하여 특정 위반 콘텐츠를 정확히 찾아 내고 사용자에게 ID를 할당하여 Anthropic의 AUP를 위반하는 개인을 추적합니다 [1]. 또한 고객이 허용 된 용도를 이해하고 클로드를 활용하기 전에 고객이 플랫폼에서 계정에 가입하도록 요구하는 것을 고려합니다 [1].
* 중간 보호 수준 의인화 의인화는 Claude와의 최종 사용자 상호 작용을 제한된 프롬프트 세트로 제한하거나 Claude가 특정 지식 코퍼스를 검토 할 수 있도록 허용하여 사용자의 위반 행동에 참여할 수있는 능력을 감소시키는 사용자 정의 프레임 워크를 만듭니다 [1]. 또한 잠재적으로 유해한 프롬프트를 감지하고 실시간 조치를 관리하여 피해를 줄이기 위해 실시간 조치를 관리하는 데 도움이되는 무료 실시간 중재 툴링 인 추가 안전 필터를 가능하게합니다 [1].
* Claude로 보내지기 전에 모든 최종 사용자 프롬프트에 대해 중재 API를 실행하는 고급 보호 조치는 해롭지 않도록합니다 [1].
* 포괄적 인 보호 조치의 의인화는 내부 인간 검토 시스템을 설정하여 Claude 또는 중재 API로 표시되는 프롬프트를 유해한 것으로 표시하므로 위반 속도가 높은 사용자를 제한하거나 제거하기 위해 개입 할 수 있습니다 [1].
또한 엄격한 연구와 고급 안전 기술의 적용을 통해 달성 된 AI 시스템의 신뢰성과 해석 가능성에 전념하고있다 [2]. 해석 가능성의 상당한 돌파구는 '단일 론적 특징 추출'을위한 Sparse Autoencoder를 사용하는데, 이는 복잡한 신경망을 이해할 수있는 구성 요소로 단순화하는 것입니다 [2].
인용 :
[1] https://support.anthropic.com/en/articles/9199617-api-trust-safety-tools
[2] https://klu.ai/glossary/anthropic-ai
[3] https://myscale.com/blog/transformative-influence-anthropic-ai-safety-measures/
[4] https://www.anthropic.com/news/frontier-model-security
[5] https://support.anthropic.com/en/articles/8106465-our-eptroach-to-user-safety
[6] https://www.alignmentforum.org/posts/xhkr5ktvdjrssmej3/anthropic-s-core-views-on-ai-safety
[7] https://www.anthropic.com/news/anthropics-responsible-scaling-policy
[8] https://engineeringideas.substack.com/p/comments-on-anthropics-ai-safety
[9] https://www.youtube.com/watch?v=e6_x0zoxvvi
[10] https://www.anthropic.com/news/core-views-on-ai-safety