Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Anthropic은 AI 모델의 안전을 어떻게 보장합니까?


Anthropic은 AI 모델의 안전을 어떻게 보장합니까?


anthropic은 책임 스케일링 정책 (RSP), AIS 안전 수준 (ASL), 안전 필터 및 탐지 모델을 포함한 다양한 기술 및 정책을 통해 AI 모델의 안전을 보장합니다 [2] [5]. 사용자 안전은 신뢰할 수 있고 해석 가능하며 조향 가능한 AI 시스템을 만들기위한 Anthropic의 사명의 핵심입니다 [5].

주요 안전 조치 :
* 책임있는 스케일링 정책 (RSP)의 Anthropic은 점점 더 유능한 AI 모델과 관련된 위험을 관리하기 위해 RSP를 개발했습니다 [2]. 이 정책은 위험한 생물학적 재료를 처리하는 데 사용되는 미국 정부의 BSL (Bios Affety Level) 표준에서 영감을 얻은 AI 안전 수준 (ASL)이라는 프레임 워크를 소개합니다 [2] [7]. RSP는 공식적으로 Anthropic의 이사회에 의해 승인되었으며, 정책에 대한 모든 변경 사항은 이사회의 승인을 받아야합니다 [2].
* AIS 안전 수준 (ASL) ASL 프레임 워크는 안전, 보안 및 운영 표준이 치명적인 위험에 대한 모델의 잠재력에 적합하도록 설계되었습니다 [2] [7]. ASL 수준이 높을수록 안전에 대한보다 엄격한 시연이 필요합니다 [2]. 이 정책은 AI의 경제적, 사회적 가치와 심각한 위험을 완화해야 할 필요성, 특히 모델 자체에 의한 고의적 인 오용 또는 의도하지 않은 파괴적인 행동으로 인해 발생할 수있는 치명적인 위험을 완화시켜야한다 [2].
* 안전 필터는 프롬프트에 안전 필터를 사용하여 탐지 모델이 컨텐츠를 유해한 것으로 표시 할 때 모델의 응답을 차단할 수 있습니다 [5]. 또한 향상된 안전 필터가있어 탐지 모델의 감도를 높일 수 있습니다 [5]. 인류는 정책을 반복적으로 위반 한 사용자에게 일시적으로 향상된 안전 필터를 적용하고 위반이 없거나 적은 기간이 지나면 이러한 제어를 제거 할 수 있습니다 [5].
* 탐지 모델의 의도 모델은 사용 정책에 따라 잠재적으로 유해한 콘텐츠를 표시하는 탐지 모델을 사용합니다 [5].

추가 보호 수단 :
* 기본 보호 조치에는 각 API 호출과 링크 된 ID를 저장하여 특정 위반 콘텐츠를 정확히 찾아 내고 사용자에게 ID를 할당하여 Anthropic의 AUP를 위반하는 개인을 추적합니다 [1]. 또한 고객이 허용 된 용도를 이해하고 클로드를 활용하기 전에 고객이 플랫폼에서 계정에 가입하도록 요구하는 것을 고려합니다 [1].
* 중간 보호 수준 의인화 의인화는 Claude와의 최종 사용자 상호 작용을 제한된 프롬프트 세트로 제한하거나 Claude가 특정 지식 코퍼스를 검토 할 수 있도록 허용하여 사용자의 위반 행동에 참여할 수있는 능력을 감소시키는 사용자 정의 프레임 워크를 만듭니다 [1]. 또한 잠재적으로 유해한 프롬프트를 감지하고 실시간 조치를 관리하여 피해를 줄이기 위해 실시간 조치를 관리하는 데 도움이되는 무료 실시간 중재 툴링 인 추가 안전 필터를 가능하게합니다 [1].
* Claude로 보내지기 전에 모든 최종 사용자 프롬프트에 대해 중재 API를 실행하는 고급 보호 조치는 해롭지 않도록합니다 [1].
* 포괄적 인 보호 조치의 의인화는 내부 인간 검토 시스템을 설정하여 Claude 또는 중재 API로 표시되는 프롬프트를 유해한 것으로 표시하므로 위반 속도가 높은 사용자를 제한하거나 제거하기 위해 개입 할 수 있습니다 [1].

또한 엄격한 연구와 고급 안전 기술의 적용을 통해 달성 된 AI 시스템의 신뢰성과 해석 가능성에 전념하고있다 [2]. 해석 가능성의 상당한 돌파구는 '단일 론적 특징 추출'을위한 Sparse Autoencoder를 사용하는데, 이는 복잡한 신경망을 이해할 수있는 구성 요소로 단순화하는 것입니다 [2].

인용 :
[1] https://support.anthropic.com/en/articles/9199617-api-trust-safety-tools
[2] https://klu.ai/glossary/anthropic-ai
[3] https://myscale.com/blog/transformative-influence-anthropic-ai-safety-measures/
[4] https://www.anthropic.com/news/frontier-model-security
[5] https://support.anthropic.com/en/articles/8106465-our-eptroach-to-user-safety
[6] https://www.alignmentforum.org/posts/xhkr5ktvdjrssmej3/anthropic-s-core-views-on-ai-safety
[7] https://www.anthropic.com/news/anthropics-responsible-scaling-policy
[8] https://engineeringideas.substack.com/p/comments-on-anthropics-ai-safety
[9] https://www.youtube.com/watch?v=e6_x0zoxvvi
[10] https://www.anthropic.com/news/core-views-on-ai-safety

Perplexity의 답변 : https://www.perplexity.ai/search/how-does-anthropic-endsure-the-.dwp39i9qu63n9c3qqw1va?utm_source=copy_output