Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Anthropic은 하이브리드 AI 모델의 안전성과 신뢰성을 어떻게 보장합니까?


Anthropic은 하이브리드 AI 모델의 안전성과 신뢰성을 어떻게 보장합니까?


Anthropic은 스트레스 테스트, 안전 프로토콜 및 책임 스케일링 정책을 포함한 여러 측정을 통해 AI 안전 및 신뢰성을 보장합니다 [1]. 생물 안전 수준을 모델로 한 AIS 안전 수준 (ASL)을 활용하여 잠재적 위험에 기초한 안전 조치를 결정한다 [2] [3].

Anthropic의 안전 접근 방식의 주요 구성 요소 :
* 책임있는 스케일링 정책 (RSP)의 의인화는 AI 안전 수준 (ASL) 시스템을 사용합니다 [3]. AI 시스템이 특정 위험한 기능을 보여 주면, 인류는 특정 보호 조치가 구현 될 때까지 더 강력한 모델을 배포하지 않거나 더 강력한 모델을 훈련시키기 위해 노력합니다 [3].
* 위험한 기능이 무의식적으로 생성되지 않도록 정기적으로 위험한 기능을 위해 자주 테스트하는 의인성 테스트를 자주 테스트합니다 [3].
* 위험한 기능을 감지하기 위해 설계된 모델 평가는 실수로 중요한 안전 임계 값을 초과하는 보수적 인 "경고 표시"역할을합니다 [2]. 평가는 여러 난이도 단계로 구성 될 수 있으며,이 단계는 이전 평가에 경고 표시가 표시되는 경우에만 실행됩니다 [2].
* 절차 적 약속 ASL은 안전한 훈련 및 배치를 허용하기 위해 Anthropic의 모델과 보안의 진실이 무엇인지 지정합니다 [2].
* 모니터링 및 로깅 : 내부 사용의 경우 생성 된 출력 및 해당 입력이 최소 30 일 동안 기록되고 유지됩니다. 이 로그는 비정상적인 활동에 대해 모니터링되며 경보는 심각하게 받아 들여지고 즉시 응답합니다 [2].
* 계층 액세스 : 제한된 경우, 치명적인 피해와 관련된 기능을 갖춘 기능이 제한된 경우, 액세스가 안전하고이를 안전하게 부여 할 수있는 경우 위험한 기능과 분리 될 수없는 합법적이고 유익한 사용 사례를 가진 선정 된 심사 사용자 그룹에게 제공 될 수 있습니다. 충분한 감독 [2].
* 취약성 및 사고 공개 : 인류는 적색 팀 밍 결과, 국가 보안 위협 및 자율적 복제 위협을 다루는 다른 실험실 (보안 또는 법적 제약에 따라)과의 취약성 및 사고 공개 프로세스에 관여합니다 [2].
* 모델 취약성에 대한 빠른 반응 : 새로 발견 된 모델 취약성에 대한 정보를 제공 할 때, 인류는 즉시 완화하거나 패치하기 위해 노력합니다 [2].
* 2 자 제어 : 프론티어 AI 모델의 개발, 교육 및 배포와 관련된 모든 시스템에 적용되면, 여기에는 한 사람이 생산-중요 환경에 지속적으로 액세스 할 수없는 시스템 설계가 포함됩니다. 대신, 비즈니스 정당화를 통해 동료에게 시간 제한 액세스를 요청해야합니다 [8].
* 사용자 안전 기능에는 잠재적 인 유해한 컨텐츠를 표시하기위한 탐지 모델, 프롬프트에 대한 안전 필터 및 정책을 반복적으로 위반하는 사용자를위한 향상된 안전 필터가 포함됩니다 [7].

Anthropic은 또한 탐지 모델을 사용하여 잠재적으로 유해한 함량 및 안전 필터를 프롬프트에 플래그합니다 [7]. 그들은 추가 안전 기능에 적극적으로 투자하고 실험하고 피해를 완화하는 도구를 제공하고 있으며 사용자가 이러한 조치에 대한 피드백을 제공하도록 권장합니다 [7].

인용 :
[1] https://myscale.com/blog/transformative-influence-anthropic-ai-safety-measures/
[2] https://www-cdn.anthropic.com/1adf000c8f675958c2ee23805d91aaade1cd4613/responsible-scaling-policy.pdf
[3] https://www.anthropic.com/news/uk-ai-safety-summit
[4] https://accelerationeconomy.com/ai/anthropic-leads-shange-in-ai-safety-and-performance/
[5] https://www.anthropic.com/news/core-views-on-ai-safety
[6] https://engineeringideas.substack.com/p/comments-on-anthropics-ai-safety
[7] https://support.anthropic.com/en/articles/8106465-oul-oproach-to-user-safety
[8] https://www.anthropic.com/news/frontier-model-security

Perplexity의 답변 : https://www.perplexity.ai/search/how-does-anthropic-endsure-the-z927kvgrtc2t99qtutgsza?utm_source=copy_output