Como o antropic garante a segurança de seus modelos de IA

Antrópico garante a segurança de sua IA A segurança do usuário é central para a missão do Antrópico de criar sistemas de IA confiáveis, interpretáveis e direcionados [5].

Medidas de segurança principais:
* Política de escala responsável (RSP) Antrópico desenvolveu o RSP para gerenciar riscos vinculados a modelos de IA cada vez mais capazes [2]. A política introduz uma estrutura chamada AI Níveis de Segurança (ASL), inspirando -se nos padrões de nível de biossegurança do governo dos EUA (BSL) que são usados para lidar com materiais biológicos perigosos [2] [7]. O RSP foi formalmente aprovado pelo Conselho do Anthrópico, e quaisquer alterações na política também devem ser aprovadas pelo Conselho [2].
* Níveis de segurança da IA (ASL) A estrutura ASL é projetada para garantir que os padrões de segurança, segurança e operacionais sejam apropriados ao potencial de um modelo de risco catastrófico [2] [7]. Níveis mais altos de ASL exigem demonstrações mais rigorosas de segurança [2]. A política equilibra o valor econômico e social da IA com a necessidade de mitigar riscos graves, especialmente riscos catastróficos que podem surgir de comportamentos destrutivos deliberados ou não intencionais pelos próprios modelos [2].
* Os filtros de segurança antrópicos usam filtros de segurança em avisos, o que pode bloquear as respostas do modelo quando seus modelos de detecção sinalizam o conteúdo como prejudicial [5]. Eles também têm filtros de segurança aprimorados, o que lhes permite aumentar a sensibilidade de seus modelos de detecção [5]. Os antropia podem aplicar temporariamente filtros de segurança aprimorados a usuários que violam repetidamente suas políticas e removem esses controles após um período de nenhuma ou poucas violações [5].
* Os modelos de detecção antrópicos utilizam modelos de detecção que sinalizam conteúdo potencialmente prejudicial com base em sua política de uso [5].

Salvaguardas adicionais:
* Salvaguardas básicas Isso inclui o armazenamento de IDs vinculados a cada chamada da API para identificar conteúdo violento específico e atribuir IDs aos usuários para rastrear indivíduos que violam o AUP do Antrópico [1]. Eles também garantem que os clientes entendam os usos permitidos e consideram que os clientes se inscrevem em uma conta em sua plataforma antes de utilizar Claude [1].
* As salvaguardas intermediárias antrópicas criam estruturas de personalização que restringem as interações do usuário final com Claude a um conjunto limitado de instruções ou apenas permitem que Claude revise um corpus de conhecimento específico, diminuindo a capacidade dos usuários de se envolver em comportamento violatório [1]. Eles também permitem filtros de segurança adicionais, que são ferramentas de moderação em tempo real gratuitas construídas por antropia para ajudar a detectar instruções potencialmente prejudiciais e gerenciar ações em tempo real para reduzir os danos [1].
* Salvaguardas avançadas executando uma API de moderação contra todas as instruções do usuário final antes de serem enviadas para Claude garantem que elas não sejam prejudiciais [1].
* Salvaguardas abrangentes Antrópico configura um sistema interno de revisão humana para sinalizar os avisos que são marcados por Claude ou uma API de moderação como prejudicial, para que possam intervir para restringir ou remover usuários com altas taxas de violação [1].

A antropia também está comprometida com a confiabilidade e interpretabilidade de seus sistemas de IA, alcançada através de pesquisas rigorosas e a aplicação de técnicas avançadas de segurança [2]. Uma inovação significativa na interpretabilidade é o uso antrópico de autoencoders esparsos para 'extração de características monossemânticas', que simplifica redes neurais complexas em componentes compreensíveis [2].

Citações:
[1] https://support.anthropic.com/en/articles/9199617-api-trust-safety--ools
[2] https://klu.ai/glossary/antrópico-ai
[3] https://myscale.com/blog/transformative-influence-anthropic-ai-safety-measures/
[4] https://www.anthropic.com/news/frontier-model-security
[5] https://support.anthropic.com/en/articles/8106465-our-apacroach-to-user-serafety
[6] https://www.alignmentforum.org/postss/xhkr5ktvdjrssmej3/antrópica-s-core-views-on-ai-safety
[7] https://www.anthropic.com/news/anthropics-sponsible-scaling-policy
[8] https://engineeringideas.substack.com/p/comments-on-anthropics-ai-safety
[9] https://www.youtube.com/watch?v=E6_X0ZOXVVI
[10] https://www.anthropic.com/news/core-views-on-ai-safety

Resposta de Perplexity: https://www.perplexity.ai/search/how-does-antrópica-ensure-the-.dwp39i9qu63n9c3qqw1va?utm_source=copy_output