Antrópico garante a segurança e a confiabilidade da IA através de várias medidas, incluindo testes de estresse, protocolos de segurança e uma política de escala responsável [1]. Eles utilizam os níveis de segurança de IA (ASL), modelados após níveis de biossegurança, para determinar medidas de segurança com base em riscos potenciais [2] [3].
Componentes -chave da abordagem de segurança do Anthropic:
* Política de escala responsável (RSP) Antrópico emprega um sistema de níveis de segurança de IA (ASL) [3]. Se um sistema de IA demonstrar certos recursos perigosos, o antropia se compromete a não implantá -lo ou treinar modelos mais poderosos até que salvaguardas específicas sejam implementadas [3].
* Testes frequentes testes antrópicos frequentemente para capacidades perigosas em intervalos regulares para garantir que as capacidades perigosas não sejam criadas sem saber [3].
* Avaliações do modelo projetadas para detectar recursos perigosos, essas avaliações atuam como "sinais de alerta" conservadores para evitar que excedam acidentalmente os limiares críticos de segurança [2]. As avaliações podem consistir em vários estágios de dificuldade, onde os estágios posteriores são executados apenas se as avaliações anteriores mostrarem sinais de alerta [2].
* Compromissos processuais Os ASLs especificam o que deve ser verdadeiro para os modelos e a segurança do antropia para permitir treinamento e implantação seguros [2].
* Monitoramento e registro: para uso interno, saídas geradas e entradas correspondentes são registradas e retidas por pelo menos 30 dias. Esses logs são monitorados quanto à atividade anormal e os alarmes são levados a sério e respondidos prontamente [2].
* Acesso em camadas: Em casos limitados, modelos com recursos relevantes para danos catastróficos podem estar disponíveis para um grupo selecionado de usuários examinados com um caso de uso legítimo e benéfico que não pode ser separado de capacidades perigosas, desde que o acesso possa ser concedido com segurança e com supervisão suficiente [2].
* Vulnerabilidade e divulgação de incidentes: o antropia se envolve em um processo de vulnerabilidade e divulgação de incidentes com outros laboratórios (sujeitos a restrições legais ou de segurança) que abrange resultados de equipes vermelhas, ameaças à segurança nacional e ameaças de replicação autônomas [2].
* Resposta rápida às vulnerabilidades do modelo: Quando informado de uma vulnerabilidade de modelo recém -descoberta, permitindo danos catastróficos, o antropia se compromete a mitigá -lo ou corrigi -lo prontamente [2].
* Controle de duas partes: aplicado a todos os sistemas envolvidos no desenvolvimento, treinamento, hospedagem e implantação dos modelos de IA da fronteira, isso envolve um design de sistema em que nenhuma pessoa tem acesso persistente a ambientes críticos de produção; Em vez disso, eles devem solicitar acesso limitado a tempo de um colega de trabalho com uma justificativa comercial [8].
* Recursos de segurança do usuário incluem modelos de detecção para sinalizar conteúdo potencialmente prejudicial, filtros de segurança em avisos e filtros de segurança aprimorados para usuários que violam repetidamente as políticas [7].
O Antrópico também usa modelos de detecção para sinalizar filtros de conteúdo e segurança potencialmente prejudiciais em prompts [7]. Eles estão investindo ativamente e experimentando recursos adicionais de segurança e fornecendo ferramentas para mitigar os danos, e incentivam os usuários a fornecer feedback sobre essas medidas [7].
Citações:
[1] https://myscale.com/blog/transformative-influence-anthropic-ai-safety-measures/
[2] https://www-cdn.anthropic.com/1adf000c8f675958c2ee23805d91aaade1cd4613/responsible-scaling-policy.pdf
[3] https://www.anthropic.com/news/uk-ai-safety-summit
[4] https://accelationeconomy.com/ai/anthrópica-eads-the-charge-in-ai-safety-and-performance/
[5] https://www.anthropic.com/news/core-views-on-ai-safety
[6] https://engineeringideas.substack.com/p/comments-on-anthropics-ai-safety
[7] https://support.anthropic.com/en/articles/8106465-our-apacroach-to-user-serafety
[8] https://www.anthropic.com/news/frontier-model-security